SlideShare une entreprise Scribd logo
1  sur  44
@AmauryCrickx#dv14ievn
Identification d’une Empreinte
Vocale pour les Nuls
@AmauryCrickx
Développeur Java
Ingénieur du son
Recognito
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
Caractéristiques de la voix p
arlée
Tonalité Timbre AccentFlot Vocabulaire
Physique Comportement
@AmauryCrickx#dv14ievn
D’où vient la différence ?
Larynx
Cordes vocales
1. Pharynx
3. Cavité nasale
2. Cavité buccale
4. Cavité labiale
@AmauryCrickx#dv14ievn
D’où vient la différence ?
Larynx
Cordes vocales
1. Pharynx
3. Cavité nasale
2. Cavité buccale
4. Cavité labiale
@AmauryCrickx#dv14ievn
Captation du signal
+
-
0
@AmauryCrickx#dv14ievn
Numérisation du signal
Fréquence
d’échantillonnage
de 16 KHz
Amplitude
Temps
 Encodé sur 16 bits
@AmauryCrickx#dv14ievn
Empreinte vocale
Modèle mathématique basé
sur les formants de la voix
• Trigonométrie
• Equations différentielles
et intégrales
• Nombre Complexe
(Réel + Imaginaire)
@AmauryCrickx#dv14ievn
Buts poursuivis
Authentification
Classification
Identification
Segmentation
(Diarisation)
@AmauryCrickx#dv14ievn
En résumé
Fréquences
Uniques
Numériser Extraction
Modèle
Mathématique
Authentifier
Identifier
Classifier
Segmenter
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
Recognito ?
Identification du locuteur
indépendamment du texte
• Librairie orientée développeurs
• Thread safe
• Licence Apache 2
@AmauryCrickx#dv14ievn
Enrôlement
@AmauryCrickx#dv14ievn
Constructeur 2
@AmauryCrickx#dv14ievn
Identification
@AmauryCrickx#dv14ievn
Dans les coulisses
@AmauryCrickx#dv14ievn
Suppression du silence
@AmauryCrickx#dv14ievn
Normalisation du volume
@AmauryCrickx#dv14ievn
• Linear Predictive Coding – LPC
 Utilisé pour compresser la voix dans la téléphonie
 double[20]
• Fenêtres de 25ms
• Empreinte vocale = moyenne des double[20]
Extraction des caractéristiques
…
Empreinte vocale
Fen. 1
Fen. 2 Moyenne
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Fenêtrage
@AmauryCrickx#dv14ievn
Distance Euclidienne
 Somme du carré des différences
@AmauryCrickx#dv14ievn
Une poignée de classes
Recognito
Voice
Activity
Detector
Normalizer
Features
Extractor
Window
Function
LPC
Distance
Calculator
Voice
Print
@AmauryCrickx#dv14ievn
Agenda
Périmètre du
Problème
Comment ça
marche ?
Aspects
Pratiques
@AmauryCrickx#dv14ievn
FOSS
• ALIZE – C/C++ – LGPL
• Laboratoire Informatique d’Avignon
• Plateforme open source d'authentification biométrique
• LIUM – Java – GPL
• Laboratoire Informatique de l’Université du Maine (Le Mans)
• Diarisation des locuteurs
• VoiceId – Python – GPL
• Diarisation LIUM + Identification
• MARF – Java – GPL
@AmauryCrickx#dv14ievn
De nombreux acteurs
• Nuance
• VoiceVault
• ValidSoft
• Agnitio
• VoiceSecure
• Verint
• SesTek
• SpeechPro
• VoiceTrust
• Authentify
• Voice Biometrics Group
• Neurotechnology
• OxfordWaveResearch
• Recognition Technologies
• Acustek
• …
@AmauryCrickx#dv14ievn
Marchés visés
Institutions
Gouvernementales
Call
Centers
Applications
Mobiles
@AmauryCrickx#dv14ievn
Authentification
Référence
Individuelle
Modèle
Universel
seuil
Echantillon à authentifier
@AmauryCrickx#dv14ievn
Indicateurs de performance
Seuil
%Erreur
False
Acceptance
Rate
False
Rejection
Rate
Equal
Error
Rate
@AmauryCrickx#dv14ievn
Indicateurs de performance
FAR, FRR, EER
N’ont de sens que lorsqu’on compare
les mêmes jeux de données
Par exemple :
NIST, PRISM, …
@AmauryCrickx#dv14ievn
Modalités d’authentification
1. Phrase clé « Ma voix est mon mot de passe »
Enrôlement : répéter 3 fois la phrase
@AmauryCrickx#dv14ievn
Modalités d’authentification
Reconnaissance
Vocale
Intonation Flot Robuste
au bruit
1. Phrase clé « Ma voix est mon mot de passe »
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Pas 2 enregistrements identiques
• Détection de traitements numériques
1. Phrase clé « Ma voix est mon mot de passe »
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Plus difficile à obtenir
• Détection de traitements numériques
2. Phrase aléatoire « correct cheval batterie agrafe »
Enrôlement : lire une (longue) liste de mots
@AmauryCrickx#dv14ievn
Modalités d’authentification
• Vérificateur humain
• Encore plus difficile à contrefaire
• Détection de traitements numériques
• Sensible au bruit environnant
3. En continu au cours d’une conversation
Enrôlement : première conversation vérifiée
@AmauryCrickx#dv14ievn
Vérification à facteurs multiples
Savoir Posséder Etre
Mot de passe
Question / réponse
Générateur
de Token
Biométrie
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
En résumé
• Technologie mature
• Coût faible
• Meilleure expérience
utilisateur
• Sensibilité au bruit
• Variabilité de la voix
• Statistique par nature
@YourTwitterHandle#DVXFR14{session hashtag} @AmauryCrickx#dv14ievn
@AmauryCrickx#dv14ievn
Crédit image / Creative Commons
• Rue pavée — By-Nc-Sa
•http://www.flickr.com/photos/22914687@N05/4957591422/sizes/l/
• Sous la Tour Eiffel — By-Nc-Sa
•http://www.flickr.com/photos/stewiedewie/244850735/sizes/l/in/photostream/
• Sous le pont — photo par B.Monginoux - By-Nc-Nd
•http://www.landscape-photo.net/displayimage.php?pid=5194
• Le Louvre – Photo par Anthony Gaudun - By-Nc-Sa
•http://www.flickr.com/photos/anthonygaudun/7474397964/sizes/o/in/photostream/
• Slide template created by @glaforge, completed by @nmartignole for Devoxx FR2014

Contenu connexe

Tendances

Speech recognition techniques
Speech recognition techniquesSpeech recognition techniques
Speech recognition techniquessonukumar142
 
Speech recognition system seminar
Speech recognition system seminarSpeech recognition system seminar
Speech recognition system seminarDiptimaya Sarangi
 
Automatic speech recognition
Automatic speech recognitionAutomatic speech recognition
Automatic speech recognitionRichie
 
Automatic speech recognition
Automatic speech recognitionAutomatic speech recognition
Automatic speech recognitionManthan Gandhi
 
A heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPA heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPMnasri Sami
 
Voice To Text Presentation
Voice To Text PresentationVoice To Text Presentation
Voice To Text Presentationshahinmehr
 
Speech recognition final presentation
Speech recognition final presentationSpeech recognition final presentation
Speech recognition final presentationhimanshubhatti
 
Voice input and speech recognition system in tourism/social media
Voice input and speech recognition system in tourism/social mediaVoice input and speech recognition system in tourism/social media
Voice input and speech recognition system in tourism/social mediacidroypaes
 
Artificial intelligence for speech recognition
Artificial intelligence for speech recognitionArtificial intelligence for speech recognition
Artificial intelligence for speech recognitionsowmith chatlapally
 
Speech Recognition Technology
Speech Recognition TechnologySpeech Recognition Technology
Speech Recognition TechnologySrijanKumar18
 
Speech Recognition
Speech RecognitionSpeech Recognition
Speech Recognitionfathitarek
 
Speech Recognition
Speech RecognitionSpeech Recognition
Speech RecognitionHugo Moreno
 
A Framework For Dynamic Hand Gesture Recognition Using Key Frames Extraction
A Framework For Dynamic Hand Gesture Recognition Using Key Frames ExtractionA Framework For Dynamic Hand Gesture Recognition Using Key Frames Extraction
A Framework For Dynamic Hand Gesture Recognition Using Key Frames ExtractionNEERAJ BAGHEL
 
Speech recognition system
Speech recognition systemSpeech recognition system
Speech recognition systemRipal Ranpara
 
Visual speech to text conversion applicable to telephone communication
Visual speech to text conversion  applicable  to telephone communicationVisual speech to text conversion  applicable  to telephone communication
Visual speech to text conversion applicable to telephone communicationSwathi Venugopal
 
Speech recognition
Speech recognitionSpeech recognition
Speech recognitionCharu Joshi
 
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...ijtsrd
 
Hand Gesture Recognition using Neural Network
Hand Gesture Recognition using Neural NetworkHand Gesture Recognition using Neural Network
Hand Gesture Recognition using Neural NetworkBhagwat Singh Rathore
 

Tendances (20)

Speech recognition techniques
Speech recognition techniquesSpeech recognition techniques
Speech recognition techniques
 
Speech Recognition
Speech RecognitionSpeech Recognition
Speech Recognition
 
Speech recognition system seminar
Speech recognition system seminarSpeech recognition system seminar
Speech recognition system seminar
 
Automatic speech recognition
Automatic speech recognitionAutomatic speech recognition
Automatic speech recognition
 
Automatic speech recognition
Automatic speech recognitionAutomatic speech recognition
Automatic speech recognition
 
A heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSPA heuristic multi-agents model to solve the TSP
A heuristic multi-agents model to solve the TSP
 
Voice To Text Presentation
Voice To Text PresentationVoice To Text Presentation
Voice To Text Presentation
 
Speech recognition final presentation
Speech recognition final presentationSpeech recognition final presentation
Speech recognition final presentation
 
Voice input and speech recognition system in tourism/social media
Voice input and speech recognition system in tourism/social mediaVoice input and speech recognition system in tourism/social media
Voice input and speech recognition system in tourism/social media
 
Artificial intelligence for speech recognition
Artificial intelligence for speech recognitionArtificial intelligence for speech recognition
Artificial intelligence for speech recognition
 
Speech Recognition Technology
Speech Recognition TechnologySpeech Recognition Technology
Speech Recognition Technology
 
Speech Recognition
Speech RecognitionSpeech Recognition
Speech Recognition
 
Speech Recognition
Speech RecognitionSpeech Recognition
Speech Recognition
 
A Framework For Dynamic Hand Gesture Recognition Using Key Frames Extraction
A Framework For Dynamic Hand Gesture Recognition Using Key Frames ExtractionA Framework For Dynamic Hand Gesture Recognition Using Key Frames Extraction
A Framework For Dynamic Hand Gesture Recognition Using Key Frames Extraction
 
Speech recognition system
Speech recognition systemSpeech recognition system
Speech recognition system
 
BAHA (1 of 2)
BAHA (1 of 2)BAHA (1 of 2)
BAHA (1 of 2)
 
Visual speech to text conversion applicable to telephone communication
Visual speech to text conversion  applicable  to telephone communicationVisual speech to text conversion  applicable  to telephone communication
Visual speech to text conversion applicable to telephone communication
 
Speech recognition
Speech recognitionSpeech recognition
Speech recognition
 
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...
GRS '“ Gesture based Recognition System for Indian Sign Language Recognition ...
 
Hand Gesture Recognition using Neural Network
Hand Gesture Recognition using Neural NetworkHand Gesture Recognition using Neural Network
Hand Gesture Recognition using Neural Network
 

En vedette

La reconnaissance vocale pour les radiologues, un monde de bénéficies.
La reconnaissance vocale pour les radiologues,un monde de bénéficies.La reconnaissance vocale pour les radiologues,un monde de bénéficies.
La reconnaissance vocale pour les radiologues, un monde de bénéficies.Nuance Healthcare EMEA
 
Powerpoint Oral TIPE 2010-2011
Powerpoint Oral TIPE 2010-2011 Powerpoint Oral TIPE 2010-2011
Powerpoint Oral TIPE 2010-2011 Gontran Pic
 
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOS
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOSAna Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOS
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOSAESP AESP
 
Proteccion del jaftware
Proteccion del jaftwareProteccion del jaftware
Proteccion del jaftwarechecho23123
 
Ppt pechakuchaPresentación PechaKucha
Ppt pechakuchaPresentación PechaKuchaPpt pechakuchaPresentación PechaKucha
Ppt pechakuchaPresentación PechaKuchaSiarte
 
Open Government y Open Data
Open Government y Open DataOpen Government y Open Data
Open Government y Open DataEVM
 
conectaDEL presentación programa
conectaDEL presentación programaconectaDEL presentación programa
conectaDEL presentación programaConectaDEL
 
subir videos al internet
subir videos al internetsubir videos al internet
subir videos al internetAlexis Polo
 
Word computacion
Word computacionWord computacion
Word computacionPatitom18
 
Felicidad
FelicidadFelicidad
Felicidad051978
 
Salve en el_cano
Salve en el_canoSalve en el_cano
Salve en el_canogonzalvo2
 
Le maître de l'olympe
Le maître de l'olympeLe maître de l'olympe
Le maître de l'olympeAlagar05
 
Comunicacion institucional en_salud
Comunicacion institucional en_saludComunicacion institucional en_salud
Comunicacion institucional en_saludTaite Cortés
 

En vedette (20)

La reconnaissance vocale pour les radiologues, un monde de bénéficies.
La reconnaissance vocale pour les radiologues,un monde de bénéficies.La reconnaissance vocale pour les radiologues,un monde de bénéficies.
La reconnaissance vocale pour les radiologues, un monde de bénéficies.
 
Powerpoint Oral TIPE 2010-2011
Powerpoint Oral TIPE 2010-2011 Powerpoint Oral TIPE 2010-2011
Powerpoint Oral TIPE 2010-2011
 
Présentation robotique
Présentation robotiquePrésentation robotique
Présentation robotique
 
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOS
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOSAna Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOS
Ana Pastor - LOS SERVICIOS A LA PERSONA: FUENTE DE EMPLEO Y NUEVOS NEGOCIOS
 
Proteccion del jaftware
Proteccion del jaftwareProteccion del jaftware
Proteccion del jaftware
 
La oferta
La ofertaLa oferta
La oferta
 
Pyly foros
Pyly forosPyly foros
Pyly foros
 
Ppt pechakuchaPresentación PechaKucha
Ppt pechakuchaPresentación PechaKuchaPpt pechakuchaPresentación PechaKucha
Ppt pechakuchaPresentación PechaKucha
 
Open Government y Open Data
Open Government y Open DataOpen Government y Open Data
Open Government y Open Data
 
conectaDEL presentación programa
conectaDEL presentación programaconectaDEL presentación programa
conectaDEL presentación programa
 
Te amo
Te amoTe amo
Te amo
 
In02100c
In02100cIn02100c
In02100c
 
subir videos al internet
subir videos al internetsubir videos al internet
subir videos al internet
 
3rd ec & te question papers december 2013
3rd ec & te question papers december 20133rd ec & te question papers december 2013
3rd ec & te question papers december 2013
 
Word computacion
Word computacionWord computacion
Word computacion
 
Felicidad
FelicidadFelicidad
Felicidad
 
John lennon
John lennonJohn lennon
John lennon
 
Salve en el_cano
Salve en el_canoSalve en el_cano
Salve en el_cano
 
Le maître de l'olympe
Le maître de l'olympeLe maître de l'olympe
Le maître de l'olympe
 
Comunicacion institucional en_salud
Comunicacion institucional en_saludComunicacion institucional en_salud
Comunicacion institucional en_salud
 

Identification d'une empreinte vocale pour les Nuls