Presentación de Víctor González para la asignatura Técnicas de Inteligencia Artificial con Inspiración Biológica del Máster en Ciencia y Tecnología Informática.
En la presentación se habla de un Paper de Waibel (1989) sobre Redes Neuronales de Retardo Temporal (TDNN) para el reconocimiento de voz.
1. Time Delay Neural Networks for
Speech Recognition
Víctor González Pacheco
Técnicas de IA con Inspiración Biológica
Máster en Ciencia y Tecnología Informática
Enero 2009
2. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2
3. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3
4. Introducción
Redes Neuronales “clásicas”
Clasificación
−
Patrones no variables en el tiempo
−
¿Cómo clasifico patrones variables en el
tiempo?
Time-Delay Neural Networks
−
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4
5. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5
6. Arquitectura de la TDNN
Waibel et al. (trabajos de 1988-1989)
Reconocimiento de Fonemas
Clasificación de los fonemas /b, d, g/ en japonés
−
Red Neuronal construida
3 capas
−
Cada capa enlaza una serie de “celdas” de
−
retardo temporal
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6
7. Arquitectura interna de una Celda
Cada celda de entrada aplica una función
sigmoide a N ∗ K ١ pesos
N =Número de características del vector f(t)
−
K = Número de vectores retrasados
−
La entrada se compone de
K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)}
−
Con características 1 ≤ j ≤ N
−
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7
8. Arquitectura Interna de una Celda
K = vectores retrasados
N = Características vector
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8
9. Arquitectura de la TDNN
Clasificación fonemas /b, d, g/
Entrada de la red N=16, K=2
Las celdas de la 1ª capa oculta
−
No reciben datos hasta que hay 3 vectores
Vectores separados 10ms
1ª capa oculta genera datos a los 30ms
−
Genera salidas cada 10ms
−
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9
10. Arquitectura de la TDNN
1ª capa oculta
8 celdas organizadas en una columna
−
Celdas totalmente conect. a las 16 celdas de la capa de entrada
−
Generan salida con 3 vectores de la capa de entrada
−
2ª capa oculta
3 celdas por columna
−
Totalmente conectadas a las 8 celdas de la 1ª capa oculta
−
Generan salida con 5 vectores de la 1ª C.O.
−
Capa de salida
3 celdas de salida (/b,d,g/)
−
Conectadas a sólo 1 celda de la 2ª C.O.
−
Salida con 9 vectores de la 2ª C.O.
−
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10
11. Arquitectura de la TDNN
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11
12. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12
13. Aplicación para clasificación de
fonemas
Vocabulario Japonés (fonemas /b,d,g/)
3 anunciantes profesionales (800 fonemas
por hablante)
Red neuronal entrenada para cada
hablante
Sonidos proporcionaban 15 vectores
espaciados 10ms.
Fiabilidad de la red 98,5%
Otros métodos (HMM): 93,5%
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13
14. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14
15. Interpretación de la representación
espacio-temporal de una TDNN
Red distingue fonemas en condiciones
difíciles
Contextos fonéticos varían según palabras
Posicionamiento de la boca varía para
−
fonemas según sus fonemas anteriores y
posteriores
Clasificación del fonema /d/
/da/
−
/do/
−
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15
16. Interpretación de la representación
espacio-temporal de una TDNN
Input Layer
/do/
/da/
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16
17. Interpretación de la representación
espacio-temporal de una TDNN
1ª C.O.
2ª C.O.
/do/
/da/
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17
18. Interpretación de la representación
espacio-temporal de una TDNN
Varianza temporal
±30ms
−
/do/
+30ms -30ms
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18
19. Índice
Introducción
Arquitectura de una TDNN
Aplicación a clasificación de Fonemas
Interpretación de la representación espacio-
temporal de una TDNN
Conclusiones
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19
20. Resumen
Método eficiente (98,5% en las pruebas)
Robusto
Variaciones contextuales
−
Variaciones temporales
−
Otras pruebas realizadas mejoran
métodos anteriores en diferentes
contextos.
Difícil escalar para vocabularios extensos
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20
21. Referencias
[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,
“Phoneme recognition using time-delay neural networks,” IEEE Trans.
Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-
339
[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech
Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21
22. Gracias por su atención
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22