2023-TFG4_NLP_Transformers

Ricardo Lopez-Ruiz
Ricardo Lopez-RuizProfessor à University of Zaragoza
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Modelos de redes neuronales para identificar
entidades en documentos
David Redondo Laencina
Universidad de Zaragoza
13 de septiembre de 2023
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Motivación del trabajo
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
1 Fundamentos teóricos
Aprendizaje automático
Aprendizaje supervisado
Aprendizaje no supervisado
Redes neuronales
Modelos de lenguaje en NLP
2 Identificación de entidades en documentos
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
3 DocLayNet y LayoutLM: Análisis y explicación
LayoutLMv2
DocLayNet
4 Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje automático
Es el área de la inteligencia artificial que tiene como objetivo que
las máquinas aprendan. Diferenciamos dos ramas:
Aprendizaje supervisado.
Aprendizaje no supervisado.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje supervisado
Los algoritmos son entrenados con datos etiquetados.
Destacamos:
Regresión lineal y gradiente descendente.
Regresión logística.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje no supervisado
Los algoritmos son entrenados con datos sin etiquetar.
Destacamos dos algoritmos:
Algoritmo K-means.
Anomaly detection algorithm.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
La unidad básica es la neurona, esta se distribuye en layers que
pueden ser:
Input layers
Hidden layers
Output layers
En cada neurona hay una función de activación que procesa la
información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
Tipos de redes neuronales:
Feedforward Neural Networks (FNN): La información fluye
de la capa de entrada a la de salida en una única dirección.
Recurrent Neural Networks (RNN): Cada neurona puede
recordar el estado de la información en la neurona anterior.
Convolutional Neural Networks (CNN): Distintas neuronas
procesan la misma información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Modelos de lenguaje en NLP
Se divide en tres grandes ramas:
Comprensión del lenguaje.
Generación del lenguaje.
Interacción humano máquina.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Definición del problema
El objetivo de este problema es reconocer las distintas entidades de
un documento para así poder estructurarlo y obtener la información
necesaria. Las entidades se eligen en base a dos criterios:
Criterios semánticos y gramaticales.
Criterios estructurales y de localización.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Enfoques tradicionales
Métodos lingüísticos.
Métodos basados en diccionarios y palabras clave.
Modelos ocultos de Markov.
Campo aleatorio condicional.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
Es una arquitectura de red neuronal propuesta en 2017, en la que
se basan:
BERT
GPT
LayoutLM
Los transformers se basan en una estructura de atención, que es un
mecanismo que asigna un peso a cada elemento de la secuencia.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
LayoutLM es una familia de modelos multimodales orientados al
análisis de texto, imagen y layout.
Es capaz de resolver las siguientes tareas:
Question answering
Text classification
Token classification
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP],
[PAD].
ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Imagen: Primero se redimensiona la imagen, después se pasa
por el encoder, se redimensiona el output y se hace una
proyección lineal.
vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Layout: Primero se representan las bbox
bbox = (xmin,xmax ,ymin,ymax ,width,height)
y después se codifican las coordenadas en dos layers diferentes:
li = Concat(PosEmb2Dx (xmin,xmax ,width),
PosEmb2Dy (ymin,ymax ,height))
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
2 Encoder:
Primero concatena las diferentes vi y ti obteniendo
X = {v0,...,vWH−1,t0,...,tL−1}
a continuación le suma la codificación de las bbox obteniendo
xi = Xi +li .
El resto del proceso es igual al explicado anteriormente con la
diferencia de que añadimos la información sobre la posición relativa
explícitamente.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
Model FUNSD CORD SROIE Kleister-NDA
LayoutLMBASE 0.7866 0.9472 0.9438 0.8270
LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340
LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330
LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train: 69375 imágenes con 941123 anotaciones.
Validation: 6489 imágenes con 99816 anotaciones.
Test: 4999 imágenes con 66531 anotaciones.
Compuesto por: informes financieros (32%), manuales (21%),
artículos científicos (17%), leyes y regulaciones (16%), patentes
(8%), y licitaciones del gobierno (6%).
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Preprocesado
Ajuste de las bbox.
Unificación de formula y footnote en text.
Asignación de categorías a las celdas.
Eliminación de imágenes inservibles.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train Validation Test
Categorías Num. % Num. % Num. %
Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58
Patentes 5526 8.02 483 7.48 442 8.89
Artículos científicos 12225 17.75 944 14.62 941 18.94
Informes financieros 22413 32.54 1731 26.80 1739 35.00
Manuales 14332 20.80 1853 28.69 800 16.10
Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49
Total 68881 6458 4969
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
1 Tokenización
Nuestra función recibe como inputs la imagen (formato PIL),
texto palabra a palabra, sus respectivas categorías y las
distintas bbox [x1,y1,x2,y2].
Devuelve una lista con un id para cada palabra, una lista que
identifica el tipo de token, la attention mask y la
representación de las bbox, categorías e imagen.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
2 Argumentos del entrenamiento
Número de epochs.
Tamaño del lote.
Optimizador.
Learning rate.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy:
TP +TN
TP +FP +TN +FN
Precision:
TP
TP +FP
Recall:
TP
TP +FN
F1 Score: F1 = 2
precision∗recall
precision+recall
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
LayoutLMv2 0.7934 0.0542 0.0394 0.0456
Epoch 1 0.9871 0.8939 0.9481 0.9202
Epoch 2 0.9902 0.9476 0.9557 0.9516
Epoch 3 0.9933 0.9553 0.9679 0.9626
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026
Patentes 0.7958 0.5643 0.4864 0.5225
Informes financieros 0.7264 0.4560 0.3512 0.3968
Manuales 0.8311 0.4608 0.3391 0.3907
Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Desafíos futuros
Continuación del entrenamiento con otro tipo de documentos.
Investigar sobre como optimizar los tiempos de entrenamiento.
Entrenar con los mismos documentos en otra orientación.
Dividir el entrenamiento para exigir menos memoria y
almacenamiento.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
¡Gracias!
¡Gracias por su atención!
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
1 sur 33

Recommandé

Unidad 4 clas int datos.pptx par
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxfernandalemus15
2 vues35 diapositives
Deep Learning + R by Gabriel Valverde par
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeVictoria López
2K vues57 diapositives
BASE DE DATOS.pdf par
BASE DE DATOS.pdfBASE DE DATOS.pdf
BASE DE DATOS.pdfSistemadeEstudiosMed
321 vues11 diapositives
Diseno orientado a objetos par
Diseno orientado a objetosDiseno orientado a objetos
Diseno orientado a objetosCecilia Lemus
369 vues11 diapositives
Tema1 (2) par
Tema1 (2)Tema1 (2)
Tema1 (2)Pedro Sánchez
404 vues25 diapositives
CIITEC Fundamentos de Deep Learning.pptx par
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
196 vues54 diapositives

Contenu connexe

Similaire à 2023-TFG4_NLP_Transformers

Banco de reactivos total par
Banco de reactivos totalBanco de reactivos total
Banco de reactivos totalJaneth Mtz
1.2K vues122 diapositives
Doo par
DooDoo
Dooyoglentigre
473 vues10 diapositives
Clase No.01.pptx par
Clase No.01.pptxClase No.01.pptx
Clase No.01.pptxJorgeAlbertoCamposRo
5 vues38 diapositives
Bases de Datos Relacionales par
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos RelacionalesArnulfo Gomez
3.7K vues72 diapositives
Analisis y diseño de sistemas par
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
455 vues29 diapositives
Analisis y diseño de sistemas par
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
8.9K vues29 diapositives

Similaire à 2023-TFG4_NLP_Transformers(20)

Banco de reactivos total par Janeth Mtz
Banco de reactivos totalBanco de reactivos total
Banco de reactivos total
Janeth Mtz1.2K vues
Bases de Datos Relacionales par Arnulfo Gomez
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
Arnulfo Gomez3.7K vues
Analisis y diseño de sistemas par joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca6455 vues
Analisis y diseño de sistemas par joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca68.9K vues
Analisis Y Diseño De Sistemas Orientado A Objetos par joalmerca6
Analisis Y Diseño De Sistemas Orientado A ObjetosAnalisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A Objetos
joalmerca618.2K vues
Unidad 3 paradigmas de la ingeniería del software par Andhy H Palma
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del software
Andhy H Palma282 vues
Analisis Y DiseñO Orientado A Objetos par yoiner santiago
Analisis Y DiseñO Orientado A ObjetosAnalisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A Objetos
yoiner santiago51.1K vues
Intelligent Methods for Information Access in Context: The Role of Topic Desc... par Carlos Lorenzetti
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...

Plus de Ricardo Lopez-Ruiz

2023-TFG5_Metaheuristicas_para_Turismo par
2023-TFG5_Metaheuristicas_para_Turismo2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_TurismoRicardo Lopez-Ruiz
11 vues44 diapositives
2023-TFG3_ArbolesDecision_Basket par
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_BasketRicardo Lopez-Ruiz
21 vues73 diapositives
2023-TFG2_RedesNeuronalesAplicadas_F1 par
2023-TFG2_RedesNeuronalesAplicadas_F12023-TFG2_RedesNeuronalesAplicadas_F1
2023-TFG2_RedesNeuronalesAplicadas_F1Ricardo Lopez-Ruiz
31 vues45 diapositives
2023-TFG1_MercadosLibres.ppsx par
2023-TFG1_MercadosLibres.ppsx2023-TFG1_MercadosLibres.ppsx
2023-TFG1_MercadosLibres.ppsxRicardo Lopez-Ruiz
8 vues27 diapositives
2022-TFG1_ReglasAsociacion.pdf par
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdfRicardo Lopez-Ruiz
26 vues30 diapositives
2023-T14-Estudio_Histórico_Pandemias.pdf par
2023-T14-Estudio_Histórico_Pandemias.pdf2023-T14-Estudio_Histórico_Pandemias.pdf
2023-T14-Estudio_Histórico_Pandemias.pdfRicardo Lopez-Ruiz
13 vues14 diapositives

Plus de Ricardo Lopez-Ruiz(20)

Dernier

Slideshare2023.docx par
Slideshare2023.docxSlideshare2023.docx
Slideshare2023.docxMerlín Josue Flores Linares
6 vues4 diapositives
Tecnología e informática .pdf par
Tecnología e informática .pdfTecnología e informática .pdf
Tecnología e informática .pdfAnaSofaRosmaya
8 vues10 diapositives
Matematica unidad 1 par
Matematica unidad 1Matematica unidad 1
Matematica unidad 1Genesis Graterol
8 vues6 diapositives
Análisis de preguntas Grafotécnicas par
Análisis de preguntas GrafotécnicasAnálisis de preguntas Grafotécnicas
Análisis de preguntas GrafotécnicasShuduSnuff
5 vues8 diapositives
Decálogo WLT 2023.pdf par
Decálogo WLT 2023.pdfDecálogo WLT 2023.pdf
Decálogo WLT 2023.pdfDones en Xarxa
86 vues4 diapositives
Modelos atómicos par
Modelos atómicos Modelos atómicos
Modelos atómicos qai21190302mjimenez
5 vues26 diapositives

Dernier(18)

Análisis de preguntas Grafotécnicas par ShuduSnuff
Análisis de preguntas GrafotécnicasAnálisis de preguntas Grafotécnicas
Análisis de preguntas Grafotécnicas
ShuduSnuff5 vues
Desarrollo de Habilidades de Pensamiento tecnologia.docx par Saritaxuvu
Desarrollo de Habilidades de Pensamiento tecnologia.docxDesarrollo de Habilidades de Pensamiento tecnologia.docx
Desarrollo de Habilidades de Pensamiento tecnologia.docx
Saritaxuvu10 vues
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E... par Orlando Hernandez
BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...BOLETIN AGORA CONSULTORIAS  COMPARATIVO DELITOS  DE  MAYOR IMPACTO  SOCIAL  E...
BOLETIN AGORA CONSULTORIAS COMPARATIVO DELITOS DE MAYOR IMPACTO SOCIAL E...
Portafolio acción psicosocial y trabajo.pdf par adela928205
Portafolio acción psicosocial y trabajo.pdfPortafolio acción psicosocial y trabajo.pdf
Portafolio acción psicosocial y trabajo.pdf
adela92820512 vues
FUTBOL-CLUB-BARCELONA-CLUB-DE-FORMACION-.pdf par juliagili
FUTBOL-CLUB-BARCELONA-CLUB-DE-FORMACION-.pdfFUTBOL-CLUB-BARCELONA-CLUB-DE-FORMACION-.pdf
FUTBOL-CLUB-BARCELONA-CLUB-DE-FORMACION-.pdf
juliagili7 vues

2023-TFG4_NLP_Transformers

  • 1. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Modelos de redes neuronales para identificar entidades en documentos David Redondo Laencina Universidad de Zaragoza 13 de septiembre de 2023 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 2. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Motivación del trabajo David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 3. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 1 Fundamentos teóricos Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Redes neuronales Modelos de lenguaje en NLP 2 Identificación de entidades en documentos Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 4. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 3 DocLayNet y LayoutLM: Análisis y explicación LayoutLMv2 DocLayNet 4 Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 5. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje automático Es el área de la inteligencia artificial que tiene como objetivo que las máquinas aprendan. Diferenciamos dos ramas: Aprendizaje supervisado. Aprendizaje no supervisado. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 6. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje supervisado Los algoritmos son entrenados con datos etiquetados. Destacamos: Regresión lineal y gradiente descendente. Regresión logística. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 7. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje no supervisado Los algoritmos son entrenados con datos sin etiquetar. Destacamos dos algoritmos: Algoritmo K-means. Anomaly detection algorithm. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 8. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales La unidad básica es la neurona, esta se distribuye en layers que pueden ser: Input layers Hidden layers Output layers En cada neurona hay una función de activación que procesa la información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 9. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales Tipos de redes neuronales: Feedforward Neural Networks (FNN): La información fluye de la capa de entrada a la de salida en una única dirección. Recurrent Neural Networks (RNN): Cada neurona puede recordar el estado de la información en la neurona anterior. Convolutional Neural Networks (CNN): Distintas neuronas procesan la misma información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 10. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Modelos de lenguaje en NLP Se divide en tres grandes ramas: Comprensión del lenguaje. Generación del lenguaje. Interacción humano máquina. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 11. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Definición del problema El objetivo de este problema es reconocer las distintas entidades de un documento para así poder estructurarlo y obtener la información necesaria. Las entidades se eligen en base a dos criterios: Criterios semánticos y gramaticales. Criterios estructurales y de localización. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 12. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Enfoques tradicionales Métodos lingüísticos. Métodos basados en diccionarios y palabras clave. Modelos ocultos de Markov. Campo aleatorio condicional. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 13. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 14. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers Es una arquitectura de red neuronal propuesta en 2017, en la que se basan: BERT GPT LayoutLM Los transformers se basan en una estructura de atención, que es un mecanismo que asigna un peso a cada elemento de la secuencia. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 15. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 16. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 LayoutLM es una familia de modelos multimodales orientados al análisis de texto, imagen y layout. Es capaz de resolver las siguientes tareas: Question answering Text classification Token classification David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 17. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP], [PAD]. ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 18. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Imagen: Primero se redimensiona la imagen, después se pasa por el encoder, se redimensiona el output y se hace una proyección lineal. vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 19. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Layout: Primero se representan las bbox bbox = (xmin,xmax ,ymin,ymax ,width,height) y después se codifican las coordenadas en dos layers diferentes: li = Concat(PosEmb2Dx (xmin,xmax ,width), PosEmb2Dy (ymin,ymax ,height)) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 20. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 2 Encoder: Primero concatena las diferentes vi y ti obteniendo X = {v0,...,vWH−1,t0,...,tL−1} a continuación le suma la codificación de las bbox obteniendo xi = Xi +li . El resto del proceso es igual al explicado anteriormente con la diferencia de que añadimos la información sobre la posición relativa explícitamente. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 21. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 Model FUNSD CORD SROIE Kleister-NDA LayoutLMBASE 0.7866 0.9472 0.9438 0.8270 LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340 LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330 LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 22. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train: 69375 imágenes con 941123 anotaciones. Validation: 6489 imágenes con 99816 anotaciones. Test: 4999 imágenes con 66531 anotaciones. Compuesto por: informes financieros (32%), manuales (21%), artículos científicos (17%), leyes y regulaciones (16%), patentes (8%), y licitaciones del gobierno (6%). David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 23. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 24. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Preprocesado Ajuste de las bbox. Unificación de formula y footnote en text. Asignación de categorías a las celdas. Eliminación de imágenes inservibles. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 25. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train Validation Test Categorías Num. % Num. % Num. % Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58 Patentes 5526 8.02 483 7.48 442 8.89 Artículos científicos 12225 17.75 944 14.62 941 18.94 Informes financieros 22413 32.54 1731 26.80 1739 35.00 Manuales 14332 20.80 1853 28.69 800 16.10 Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49 Total 68881 6458 4969 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 26. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 1 Tokenización Nuestra función recibe como inputs la imagen (formato PIL), texto palabra a palabra, sus respectivas categorías y las distintas bbox [x1,y1,x2,y2]. Devuelve una lista con un id para cada palabra, una lista que identifica el tipo de token, la attention mask y la representación de las bbox, categorías e imagen. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 27. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 2 Argumentos del entrenamiento Número de epochs. Tamaño del lote. Optimizador. Learning rate. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 28. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy: TP +TN TP +FP +TN +FN Precision: TP TP +FP Recall: TP TP +FN F1 Score: F1 = 2 precision∗recall precision+recall David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 29. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 LayoutLMv2 0.7934 0.0542 0.0394 0.0456 Epoch 1 0.9871 0.8939 0.9481 0.9202 Epoch 2 0.9902 0.9476 0.9557 0.9516 Epoch 3 0.9933 0.9553 0.9679 0.9626 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 30. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 31. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026 Patentes 0.7958 0.5643 0.4864 0.5225 Informes financieros 0.7264 0.4560 0.3512 0.3968 Manuales 0.8311 0.4608 0.3391 0.3907 Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 32. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Desafíos futuros Continuación del entrenamiento con otro tipo de documentos. Investigar sobre como optimizar los tiempos de entrenamiento. Entrenar con los mismos documentos en otra orientación. Dividir el entrenamiento para exigir menos memoria y almacenamiento. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 33. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros ¡Gracias! ¡Gracias por su atención! David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos