SlideShare una empresa de Scribd logo
1 de 22
Descargar para leer sin conexión
Time Delay Neural Networks for
     Speech Recognition



                             Víctor González Pacheco
             Técnicas de IA con Inspiración Biológica
           Máster en Ciencia y Tecnología Informática
                                          Enero 2009
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   2
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   3
Introducción
    Redes Neuronales “clásicas”



        Clasificación
    −

        Patrones no variables en el tiempo
    −

    ¿Cómo clasifico patrones variables en el



    tiempo?
        Time-Delay Neural Networks
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   4
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   5
Arquitectura de la TDNN
    Waibel et al. (trabajos de 1988-1989)




    Reconocimiento de Fonemas



        Clasificación de los fonemas /b, d, g/ en japonés
    −

    Red Neuronal construida



        3 capas
    −

        Cada capa enlaza una serie de “celdas” de
    −
        retardo temporal




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   6
Arquitectura interna de una Celda
    Cada celda de entrada aplica una función



    sigmoide a N ∗ K ١ pesos
        N =Número de características del vector f(t)
    −

        K = Número de vectores retrasados
    −

    La entrada se compone de



        K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)}
    −

        Con características 1 ≤ j ≤ N
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   7
Arquitectura Interna de una Celda




    K = vectores retrasados




    N = Características vector





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   8
Arquitectura de la TDNN
    Clasificación fonemas /b, d, g/




    Entrada de la red N=16, K=2



        Las celdas de la 1ª capa oculta
    −

             No reciben datos hasta que hay 3 vectores
         



    Vectores separados 10ms



        1ª capa oculta genera datos a los 30ms
    −

        Genera salidas cada 10ms
    −




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   9
Arquitectura de la TDNN
    1ª capa oculta




         8 celdas organizadas en una columna
     −

         Celdas totalmente conect. a las 16 celdas de la capa de entrada
     −

         Generan salida con 3 vectores de la capa de entrada
     −

    2ª capa oculta




         3 celdas por columna
     −

         Totalmente conectadas a las 8 celdas de la 1ª capa oculta
     −

         Generan salida con 5 vectores de la 1ª C.O.
     −

    Capa de salida




         3 celdas de salida (/b,d,g/)
     −

         Conectadas a sólo 1 celda de la 2ª C.O.
     −

         Salida con 9 vectores de la 2ª C.O.
     −


    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   10
Arquitectura de la TDNN




 Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   11
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   12
Aplicación para clasificación de
fonemas
    Vocabulario Japonés (fonemas /b,d,g/)




    3 anunciantes profesionales (800 fonemas



     por hablante)
    Red neuronal entrenada para cada



    hablante
    Sonidos proporcionaban 15 vectores



    espaciados 10ms.
    Fiabilidad de la red 98,5%




    Otros métodos (HMM): 93,5%




    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   13
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   14
Interpretación de la representación
espacio-temporal de una TDNN
    Red distingue fonemas en condiciones



    difíciles
    Contextos fonéticos varían según palabras



        Posicionamiento de la boca varía para
    −
        fonemas según sus fonemas anteriores y
        posteriores
    Clasificación del fonema /d/



        /da/
    −

        /do/
    −



    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   15
Interpretación de la representación
espacio-temporal de una TDNN
    Input Layer





                                                       /do/
                 /da/


    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   16
Interpretación de la representación
espacio-temporal de una TDNN


 1ª C.O.




 2ª C.O.

                                                           /do/
                          /da/


  Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   17
Interpretación de la representación
    espacio-temporal de una TDNN
    Varianza temporal




          ±30ms
     −

    /do/





                                                      +30ms                   -30ms


         Máster en Ciencia y Tecnología Informática           Técnicas de IA con Insp. Biológica   18
Índice
    Introducción




    Arquitectura de una TDNN




    Aplicación a clasificación de Fonemas




    Interpretación de la representación espacio-



    temporal de una TDNN
    Conclusiones





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   19
Resumen
    Método eficiente (98,5% en las pruebas)




    Robusto



        Variaciones contextuales
    −

        Variaciones temporales
    −

    Otras pruebas realizadas mejoran



    métodos anteriores en diferentes
    contextos.
    Difícil escalar para vocabularios extensos





    Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   20
Referencias
[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,
  “Phoneme recognition using time-delay neural networks,” IEEE Trans.
  Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-
  339
[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech
   Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.




   Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   21
Gracias por su atención




Máster en Ciencia y Tecnología Informática   Técnicas de IA con Insp. Biológica   22

Más contenido relacionado

Destacado

Destrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos FinancierosDestrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos Financieros
Carmen Maldonado
 
Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.
melidevelopers
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Search Foresight
 
Methode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedinMethode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedin
Ahmed Oualkadi
 

Destacado (20)

Innovacio Oberta portada a la practica (UOC)
Innovacio Oberta portada a la practica (UOC)Innovacio Oberta portada a la practica (UOC)
Innovacio Oberta portada a la practica (UOC)
 
Fiera Presentation
Fiera   PresentationFiera   Presentation
Fiera Presentation
 
Particle swarm optimization for human face recognition
Particle swarm optimization for human face recognitionParticle swarm optimization for human face recognition
Particle swarm optimization for human face recognition
 
Destrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos FinancierosDestrezas BáSicas De Registro De Datos Financieros
Destrezas BáSicas De Registro De Datos Financieros
 
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicosTecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
Tecnologia de Imagenes (OCR) y Seguridad de datos electrónicos
 
Personal Branding 2.0
Personal Branding 2.0Personal Branding 2.0
Personal Branding 2.0
 
Reconocimiento supramolecular del ADN
Reconocimiento supramolecular del ADNReconocimiento supramolecular del ADN
Reconocimiento supramolecular del ADN
 
Ashtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the SeekerAshtavakra Gita - Chapter 3 - Test of the Seeker
Ashtavakra Gita - Chapter 3 - Test of the Seeker
 
handwriting recognition
handwriting recognitionhandwriting recognition
handwriting recognition
 
Recherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociauxRecherche d'emploi et réseaux sociaux
Recherche d'emploi et réseaux sociaux
 
Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.Demanda - MeliDevConf BsAs.
Demanda - MeliDevConf BsAs.
 
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017 Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
Les outils de l’UX pour connaître les utilisateurs - MC Casal - YOODx 2017
 
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
Synodiance > Recherche Vocale - SEO Campus Paris - 07/04/2016
 
Twitter for Business
Twitter for BusinessTwitter for Business
Twitter for Business
 
How To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A RecessionHow To Grow Your Way Out Of A Recession
How To Grow Your Way Out Of A Recession
 
Working out your Team Role
Working out your Team RoleWorking out your Team Role
Working out your Team Role
 
Introduction to-thucydides
Introduction to-thucydidesIntroduction to-thucydides
Introduction to-thucydides
 
Navigating Google Analytics
Navigating Google AnalyticsNavigating Google Analytics
Navigating Google Analytics
 
Séminaire sur le Programme Exemplaire
Séminaire sur le Programme ExemplaireSéminaire sur le Programme Exemplaire
Séminaire sur le Programme Exemplaire
 
Methode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedinMethode de rechercher un emploi via linkedin
Methode de rechercher un emploi via linkedin
 

Similar a TDNN for speech recognition

Untecs telecom ii_clase_1
Untecs telecom ii_clase_1Untecs telecom ii_clase_1
Untecs telecom ii_clase_1
luis2881741
 
I y c larry
I y c larryI y c larry
I y c larry
guspavo
 
Fase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayoFase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayo
jepelayo
 
Metodo de proyectos1
Metodo de proyectos1Metodo de proyectos1
Metodo de proyectos1
furucha
 
centrales telefonicas
centrales telefonicascentrales telefonicas
centrales telefonicas
Gusti Rios
 
PPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdfPPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdf
Jhonsil Ortiz
 

Similar a TDNN for speech recognition (20)

Codigos algebraicos
Codigos algebraicosCodigos algebraicos
Codigos algebraicos
 
Untecs telecom ii_clase_1
Untecs telecom ii_clase_1Untecs telecom ii_clase_1
Untecs telecom ii_clase_1
 
Curso: Redes y comunicaciones básicas: 01 Introducción
Curso: Redes y comunicaciones básicas: 01 IntroducciónCurso: Redes y comunicaciones básicas: 01 Introducción
Curso: Redes y comunicaciones básicas: 01 Introducción
 
Correcion examen final de teoria
Correcion examen final de teoriaCorrecion examen final de teoria
Correcion examen final de teoria
 
1Antenas1
1Antenas11Antenas1
1Antenas1
 
Practica comunicaciones
Practica comunicacionesPractica comunicaciones
Practica comunicaciones
 
Fiec04960 comunicaciones digitales
Fiec04960 comunicaciones digitalesFiec04960 comunicaciones digitales
Fiec04960 comunicaciones digitales
 
I y c larry
I y c larryI y c larry
I y c larry
 
Act. 1 edwin agudelo 301121 5
Act. 1 edwin agudelo 301121 5Act. 1 edwin agudelo 301121 5
Act. 1 edwin agudelo 301121 5
 
Fase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayoFase1 301121 a_79373310jogepelayo
Fase1 301121 a_79373310jogepelayo
 
Desarrollo fase uno
Desarrollo fase unoDesarrollo fase uno
Desarrollo fase uno
 
Ok
OkOk
Ok
 
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiadosCurso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
Curso: Redes y comunicaciones básicas: 02 Medios guiados y no guiados
 
1. introduccion 2016-2 (1)
1. introduccion 2016-2 (1)1. introduccion 2016-2 (1)
1. introduccion 2016-2 (1)
 
Presentación1
Presentación1Presentación1
Presentación1
 
Metodo de proyectos1
Metodo de proyectos1Metodo de proyectos1
Metodo de proyectos1
 
centrales telefonicas
centrales telefonicascentrales telefonicas
centrales telefonicas
 
Presentación Redes Locales Básico
Presentación Redes Locales Básico Presentación Redes Locales Básico
Presentación Redes Locales Básico
 
PPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdfPPT-Seminario-Programacion-en-mBlock.pdf
PPT-Seminario-Programacion-en-mBlock.pdf
 
Presentacion proyecto
Presentacion proyectoPresentacion proyecto
Presentacion proyecto
 

Último

NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
patriciaines1993
 

Último (20)

NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptFUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Usos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicasUsos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicas
 
Los avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtualesLos avatares para el juego dramático en entornos virtuales
Los avatares para el juego dramático en entornos virtuales
 
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIASISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
SISTEMA RESPIRATORIO PARA NIÑOS PRIMARIA
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnn
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración Ambiental
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
Power Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptxPower Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptx
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
 

TDNN for speech recognition

  • 1. Time Delay Neural Networks for Speech Recognition Víctor González Pacheco Técnicas de IA con Inspiración Biológica Máster en Ciencia y Tecnología Informática Enero 2009
  • 2. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2
  • 3. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3
  • 4. Introducción Redes Neuronales “clásicas”  Clasificación − Patrones no variables en el tiempo − ¿Cómo clasifico patrones variables en el  tiempo? Time-Delay Neural Networks − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4
  • 5. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5
  • 6. Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989)  Reconocimiento de Fonemas  Clasificación de los fonemas /b, d, g/ en japonés − Red Neuronal construida  3 capas − Cada capa enlaza una serie de “celdas” de − retardo temporal Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6
  • 7. Arquitectura interna de una Celda Cada celda de entrada aplica una función  sigmoide a N ∗ K ١ pesos N =Número de características del vector f(t) − K = Número de vectores retrasados − La entrada se compone de  K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)} − Con características 1 ≤ j ≤ N − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7
  • 8. Arquitectura Interna de una Celda K = vectores retrasados  N = Características vector  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8
  • 9. Arquitectura de la TDNN Clasificación fonemas /b, d, g/  Entrada de la red N=16, K=2  Las celdas de la 1ª capa oculta − No reciben datos hasta que hay 3 vectores  Vectores separados 10ms  1ª capa oculta genera datos a los 30ms − Genera salidas cada 10ms − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9
  • 10. Arquitectura de la TDNN 1ª capa oculta  8 celdas organizadas en una columna − Celdas totalmente conect. a las 16 celdas de la capa de entrada − Generan salida con 3 vectores de la capa de entrada − 2ª capa oculta  3 celdas por columna − Totalmente conectadas a las 8 celdas de la 1ª capa oculta − Generan salida con 5 vectores de la 1ª C.O. − Capa de salida  3 celdas de salida (/b,d,g/) − Conectadas a sólo 1 celda de la 2ª C.O. − Salida con 9 vectores de la 2ª C.O. − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10
  • 11. Arquitectura de la TDNN Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11
  • 12. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12
  • 13. Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/)  3 anunciantes profesionales (800 fonemas  por hablante) Red neuronal entrenada para cada  hablante Sonidos proporcionaban 15 vectores  espaciados 10ms. Fiabilidad de la red 98,5%  Otros métodos (HMM): 93,5%  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13
  • 14. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14
  • 15. Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones  difíciles Contextos fonéticos varían según palabras  Posicionamiento de la boca varía para − fonemas según sus fonemas anteriores y posteriores Clasificación del fonema /d/  /da/ − /do/ − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15
  • 16. Interpretación de la representación espacio-temporal de una TDNN Input Layer  /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16
  • 17. Interpretación de la representación espacio-temporal de una TDNN 1ª C.O. 2ª C.O. /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17
  • 18. Interpretación de la representación espacio-temporal de una TDNN Varianza temporal  ±30ms − /do/  +30ms -30ms Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18
  • 19. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19
  • 20. Resumen Método eficiente (98,5% en las pruebas)  Robusto  Variaciones contextuales − Variaciones temporales − Otras pruebas realizadas mejoran  métodos anteriores en diferentes contextos. Difícil escalar para vocabularios extensos  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20
  • 21. Referencias [1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328- 339 [2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242. Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21
  • 22. Gracias por su atención Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22