SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Décodeur neuronal pour la transcription
de documents manuscrits anciens
Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou et
Christian Viard-gaudin
TALN - 17 mai 2018 à Rennes Laboratoire LS2N équipes TALN - IPI
Sommaire
I. Projet CIRESFI
II. Modèles de reconnaissance d’écriture
III. Les ressources utilisées
IV. Expériences et Résultats
V. Conclusion et Perspectives
2
Contexte politique du XVIII siècle
1669 Louis XIV fonde l’Académie Royale de musique (Opéra).
1680 Louis XIV fonde la Comédie-Française et leur donne le privilège d’être les seuls lieux de
représentations de la musique et du théâtre.
1697 Les comédiens italiens n’ont plus le droit de jouer et sont renvoyés de Paris.
1716 Le régent (Duc d’Orléans) autorise de nouveau les comédiens italiens à jouer à Paris.
⇒ Début des registres étudiés.
1762 Fusion de l’Opéra et de la Comédie-Italienne
1780 Interdiction de jouer en italien, la troupe reprend le nom d’Opéra-Comique.
1783 Déménagement dans le nouveau théâtre Salle Favard avec plus de 1100 places
1791 - 1793 Fin des privilèges et liberté des théâtres est proclamée
⇒ Fin des registres étudiés 3
Objectifs du projet CIRESFI
Contrainte et Intégration : pour une Réévaluation des Spectacles Forains et
Italiens sous l’Ancien Régime
1. Contextualisation historico-politique : intégration jusqu’à l’obtention du
privilège de l’Opéra ;
2. La contrainte comme moteur : révolution dans la forme du théâtre avec
des nouveaux genres de pièces par écriteaux, monologues à plusieurs,
pantomimes, opéra-comique ;
3. L’économie des spectacles : retracer les coûts de production et
organisation;
4. Exploration et analyse innovante : numérisation, extraction d’information,
et indexation des informations contenus dans les ressources disponibles.
4
Les registres financiers de la Comédie-Italienne
● Période : 1716 à 1793
● 63 registres financiers ⇒ 63 saisons
● 27 000 pages
● Différentes informations : les recettes, les dépenses, les acteurs et
employés de la troupe, et d’autres informations contextuelles sur l’
époque
● 7 types de pages identifiés : comptes journaliers, mensuels, et annuel,
page blanche, couverture, l’etat des pensionnaires
5
Difficultés des registres
Détection et segmentation
● Divers types de documents
● Mise en pages variée
6
Difficultés des registres
Détection et segmentation
● Divers types de documents
● Mise en pages variée
Reconnaissance d’écriture
● Plusieurs scripteurs : varie selon les registres
● Disposition et informations changeantes : date et mention des jours
de relâche, de fermeture du théâtre, liste des pièces jouées et
précisions, Dépenses, Recettes, Acteurs, Notes, …
● Différentes langues : dialectes italiens, français
● Majoritairement construit avec des entitées nommées : “Raton et
Rosette”
Difficultés des registres
Détection et segmentation
Reconnaissance d’écriture
● Plusieurs scripteurs : varie selon les registres
● Disposition et informations changeantes : mention des jours de relâche,
de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . .
● Différentes langues : italien, vénitien, français
● Majoritairement construit avec des entitées nommées : “Raton et Rosette”
● Caractères spéciaux et abréviations :
(a) Rose (b) Invisible (c) Etc. (d) arlequin 6
Difficultés des registres
Détection et segmentation
Reconnaissance d’écriture
● Plusieurs scripteurs : varie selon les registres
● Disposition et informations changeantes : mention des jours de relâche,
de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . .
● Différentes langues : italien, vénitien, français
● Majoritairement construit avec des entitées nommées : “Raton et Rosette”
● Caractères spéciaux et abréviations :
(a) Rose (b) Invisible (c) Etc. (d) arlequin
Objectif
Étiqueter et indexer automatiquement les titres des comptes
quotidiens
⇒ Absence de vérité terrain
6
Etat de l’art en reconnaissance d’écriture
Les enjeux en reconnaissance d’objets :
● détection et segmentation des lignes
● détection automatique de mots-clés
● reconnaissance d’écriture
De plus en plus de compétitions autour des documents historiques : Cloppet
et al., 2016; Pratikakis et al., 2016; Sanchez et al., 2017.
Les systèmes doivent s’adapter au support des documents, au niveau de
détérioration ou encore au style de l’écriture
7
Etat de l’art en reconnaissance d’écriture
● Réseaux multi-dimensionnels utilisant des cellules
de type Long Short Term Memory (MDLSTM) et
CTC enrichie par de l’attention (Bluche et al., 2017)
● Réseaux récurrents à convolution (CRNN) associés
à des réseaux BLSTM (Granell et al., 2018)
Problèmes majeurs :
● Quantité de ressources nécessaires pour l’apprentissage
● Vocabulaire utilisé pour construire un ML ou un dictionnaire
Solution proposée : l’apprentissage transductif par transfert de connaissance
● Réseaux de type Encodeur-Décodeur utilisés
○ en traduction automatique (Cho et al., 2014 )
○ en génération de description d’image (Vinyals et al. ,2015) 8
Modèle d’App. par transfert de connaissances
Encodeur d’image
Apprentissage
Letter
{1,2,3}-grams
Données
inconnues
“Sophie”
Ressources
Images
FCN
Ressources
Textes
Décodeur Générateur de séquence
GRU
GRU
GRU
GRU
<sos>
S
o
p…
Couches
entièrement
connectées
GRU
GRU
GRU
GRU
h
i
e
<eos>
Couches
entièrement
connectées
Couches
entièrement
connectées
9
Site d’annotation participatif : RECITAL
● Classer les pages
● Marquer les zones d’écritures par type d’information
● Transcrire les zones
● Valider les transcriptions candidates proposées par d’autres utilisateurs
⇒ Récupération des données sur les zones de titres, segmentation en ligne
des blocs de titres et validation manuelle des transcriptions
⇒ 971 lignes de titres annotées (images)
⇒ 4 938 mots soit un vocabulaire de 1 431 mots uniques
10
http://recital.univ-nantes.fr/
Une nouvelle ressource pour la CI
● 23 oeuvres traitant de la CI
● Période de publication :
XVIIIème siècle
● Scripts bilingues (en Italien et
en Français), des répertoires d’
œuvres, des livres d’anecdotes
sur le théâtre italien
● Très bruités
11
Les ressources (images) disponibles
RIMES (RM)
Reconnaissance et Indexation de données
Manuscrites et de facsimilés est une base
française de demandes administratives
(Grosicki & El-Abed, 2011)
Los Esposalles (ESP)
Registres de mariages espagnols du XV au XVII
siècle (Romero et al., 2013)
Georges Washington (GW)
20 lettres de correspondance en anglais
datant du XVIII siècle (Fischer et al., 2012)
Wikipedia français (Wiki)
30 000 mots sélectionnés aléatoirement
(Bojanowski et al., 2017)
Google Livre (GCI)
Oeuvres françaises traitant de la
Comédie-Italienne et de la vie de la troupe
12
Les ressources (images) disponibles
RIMES (RM)
Reconnaissance et Indexation de données
Manuscrites et de facsimilés est une base
française de demandes administratives
(Grosicki & El-Abed, 2011)
Los Esposalles (ESP)
Registres de mariages espagnols du XV au XVII
siècle (Romero et al., 2013)
Georges Washington (GW)
20 lettres de correspondance en anglais
datant du XVIII siècle (Fischer et al., 2012)
Wikipedia français (Wiki)
30 000 mots sélectionnés aléatoirement
(Bojanowski et al., 2017)
Google Livre (GCI)
Oeuvres françaises traitant de la
Comédie-Italienne et de la vie de la troupe
12
Vecteur de n-grammes
Représentation des mots par des n-grammes de caractères (Bengio & Heigold,
2014)
● Estimation des n-grammes le plus fréquent sur nos ressources avec une
longueur maximale de 3
● Ajout des symboles de début [ et fin de mot ]
● 3n + 1 n-grammes pour chaque mot de longueur de n
Vecteur final 12 500 n-grammes avec un joker pour symboliser les n-grammes
absents
Sophie → [S,o,p,[So,op,Sop,. . . ,ie],e] ⇒ 19 n-grammes au total
13
Expériences menées
3 types d’expériences :
● avec la même ressource pour l’apprentissage et le test
● en ajoutant d’autres ressources pour l’apprentissage
● en utilisant uniquement des ressources différentes de l’ensemble de test,
pour l’apprentissage ⇒ apprentissage par transfert
4 options :
● avec et sans dictionnaire pour aider au décodage de la séquence
● avec et sans majuscule pendant le décodage
Taux de Reconnaissance de caractères =
14
Résultats sur Registres CI
Apprentissage
Expe.
Id
N-grams
% couv
lexicale
Sensible à la casse Insensible à la casse
TRC TRM TRM +
dict
TRC TRM TRM +
dict
GCI 1 1
65,57
69,27 14,54 10,83 69,28 14,54 11,33
GCI 2 1,2,3 97,10 86,22 39,30 97,17 86,26 40,14
GCI+RM 3 1,2,3 67,58 97,27 86,57 39,23 97,27 86,57 40,07
GCI+ESP 4 1,2,3 65,83 96,96 85,87 39,09 96,96 85,87 40,07
GCI+ESP+GW+RM 5 1,2,3 67,65 95,85 79,65 38,25 97,42 87,13 39,16
RM 6 1,2,3 14,52 79,70 30,42 17,27 79,75 30,49 17,76
RM+ESP+GW 7 1,2,3 23,39 83,68 40,21 23,99 83,74 40,42 24,41
WIki 8.1 1,2,3 0 87,32 41,40 25,24 87,44 42,22 27,76
WIKI 300k 8.2 1,2,3 0 92.80 55.94 29.37 93.00 57.27 31.61
15
Résultats sur RIMES
Apprentissage N-grams
% couv
lexicale
Sensible à la casse Insensible à la casse
TRC TRM
TRM +
dict
TRC TRM
TRM +
dict
RM 1
75,09
83,97 43,07 28,49 83,98 43,07 28,98
RM 1,2,3 94,72 79,50 37,78 94,74 79,63 37,84
GCI+RM 1,2,3 83,93 98,25 92,0 40,49 98,25 92,0 40,55
GCI+ESP+GW+RM 1,2,3 83,95 96,22 80,73 39,14 96,22 80,74 39,45
GCI 1,2,3 58,55 95,51 81,53 38,58 95,51 81,53 38,58
GCI+ESP 1,2,3 59,04 95,46 80,61 38,15 95,46 80,61 38,15
WIki 1,2,3 0 90,36 67,57 35,20 90,43 67,69 36,12
16
Résultats sur Los Esposalles
Apprentissage N-grams
% couv
lexicale
Sensible à la casse Insensible à la casse
TRC TRM
TRM +
dict
TRC TRM
TRM +
dict
GCI+ESP 1,2,3 85,94 98,57 91,11 56,51 98,57 91,11 57,14
GCI+ESP+GW+RM 1,2,3 86,10 98,40 90,79 57,62 98,40 90,79 57,78
GCI 1,2,3 15,96 91,68 65,87 44,76 91,69 65,87 44,76
RM 1,2,3 7,27 72,83 18,25 12,70 72,86 18,25 12,86
GCI+RM 1,2,3 17,37 92,05 64,13 46,51 92,06 64,13 47,14
GCI+RM+GW 1,2,3 17,69 91,68 64,60 44,60 91,70 64,76 45,07
WIki 1,2,3 0 84,52 34,28 32,38 84,71 35,08 34,12
17
Type d’Erreur Expe. Id Mot d’origine Mot reconstitué
Caract.
multiplié
4 cavalcade cacaadade
3 clemence ccceeene
Caract. interverti 6 suitte usitte
Caract. de début
5 [diverstissemens] ddevvestissemens]
6 Soldat [ollat
Analyse des erreurs sur RCI
18
Conclusion et Perspectives
● Approche valide au niveau mot → TRC > 90% et des TRM dépassant la
couverture lexicale estimée
● Un réseau simple (4 couches) mais efficace
● Recherche de ressources sous-exploitées enrichissante
● Bruité le vecteur en entrée du décodeur artificiellement (en cours)
● Ajouter des systèmes d'attention :
○ L'encodeur → pour se focaliser sur un mot à la fois
○ Le décodeur → pour prendre en compte les n-grammes utilisés à
chaque génération d'un caractère
19http://recital.univ-nantes.fr/

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Décodeur neuronal pour la transcription de documents manuscrits anciens

  • 1. Décodeur neuronal pour la transcription de documents manuscrits anciens Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou et Christian Viard-gaudin TALN - 17 mai 2018 à Rennes Laboratoire LS2N équipes TALN - IPI
  • 2. Sommaire I. Projet CIRESFI II. Modèles de reconnaissance d’écriture III. Les ressources utilisées IV. Expériences et Résultats V. Conclusion et Perspectives 2
  • 3. Contexte politique du XVIII siècle 1669 Louis XIV fonde l’Académie Royale de musique (Opéra). 1680 Louis XIV fonde la Comédie-Française et leur donne le privilège d’être les seuls lieux de représentations de la musique et du théâtre. 1697 Les comédiens italiens n’ont plus le droit de jouer et sont renvoyés de Paris. 1716 Le régent (Duc d’Orléans) autorise de nouveau les comédiens italiens à jouer à Paris. ⇒ Début des registres étudiés. 1762 Fusion de l’Opéra et de la Comédie-Italienne 1780 Interdiction de jouer en italien, la troupe reprend le nom d’Opéra-Comique. 1783 Déménagement dans le nouveau théâtre Salle Favard avec plus de 1100 places 1791 - 1793 Fin des privilèges et liberté des théâtres est proclamée ⇒ Fin des registres étudiés 3
  • 4. Objectifs du projet CIRESFI Contrainte et Intégration : pour une Réévaluation des Spectacles Forains et Italiens sous l’Ancien Régime 1. Contextualisation historico-politique : intégration jusqu’à l’obtention du privilège de l’Opéra ; 2. La contrainte comme moteur : révolution dans la forme du théâtre avec des nouveaux genres de pièces par écriteaux, monologues à plusieurs, pantomimes, opéra-comique ; 3. L’économie des spectacles : retracer les coûts de production et organisation; 4. Exploration et analyse innovante : numérisation, extraction d’information, et indexation des informations contenus dans les ressources disponibles. 4
  • 5. Les registres financiers de la Comédie-Italienne ● Période : 1716 à 1793 ● 63 registres financiers ⇒ 63 saisons ● 27 000 pages ● Différentes informations : les recettes, les dépenses, les acteurs et employés de la troupe, et d’autres informations contextuelles sur l’ époque ● 7 types de pages identifiés : comptes journaliers, mensuels, et annuel, page blanche, couverture, l’etat des pensionnaires 5
  • 6. Difficultés des registres Détection et segmentation ● Divers types de documents ● Mise en pages variée 6
  • 7. Difficultés des registres Détection et segmentation ● Divers types de documents ● Mise en pages variée Reconnaissance d’écriture ● Plusieurs scripteurs : varie selon les registres ● Disposition et informations changeantes : date et mention des jours de relâche, de fermeture du théâtre, liste des pièces jouées et précisions, Dépenses, Recettes, Acteurs, Notes, … ● Différentes langues : dialectes italiens, français ● Majoritairement construit avec des entitées nommées : “Raton et Rosette”
  • 8. Difficultés des registres Détection et segmentation Reconnaissance d’écriture ● Plusieurs scripteurs : varie selon les registres ● Disposition et informations changeantes : mention des jours de relâche, de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . . ● Différentes langues : italien, vénitien, français ● Majoritairement construit avec des entitées nommées : “Raton et Rosette” ● Caractères spéciaux et abréviations : (a) Rose (b) Invisible (c) Etc. (d) arlequin 6
  • 9. Difficultés des registres Détection et segmentation Reconnaissance d’écriture ● Plusieurs scripteurs : varie selon les registres ● Disposition et informations changeantes : mention des jours de relâche, de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . . ● Différentes langues : italien, vénitien, français ● Majoritairement construit avec des entitées nommées : “Raton et Rosette” ● Caractères spéciaux et abréviations : (a) Rose (b) Invisible (c) Etc. (d) arlequin Objectif Étiqueter et indexer automatiquement les titres des comptes quotidiens ⇒ Absence de vérité terrain 6
  • 10. Etat de l’art en reconnaissance d’écriture Les enjeux en reconnaissance d’objets : ● détection et segmentation des lignes ● détection automatique de mots-clés ● reconnaissance d’écriture De plus en plus de compétitions autour des documents historiques : Cloppet et al., 2016; Pratikakis et al., 2016; Sanchez et al., 2017. Les systèmes doivent s’adapter au support des documents, au niveau de détérioration ou encore au style de l’écriture 7
  • 11. Etat de l’art en reconnaissance d’écriture ● Réseaux multi-dimensionnels utilisant des cellules de type Long Short Term Memory (MDLSTM) et CTC enrichie par de l’attention (Bluche et al., 2017) ● Réseaux récurrents à convolution (CRNN) associés à des réseaux BLSTM (Granell et al., 2018) Problèmes majeurs : ● Quantité de ressources nécessaires pour l’apprentissage ● Vocabulaire utilisé pour construire un ML ou un dictionnaire Solution proposée : l’apprentissage transductif par transfert de connaissance ● Réseaux de type Encodeur-Décodeur utilisés ○ en traduction automatique (Cho et al., 2014 ) ○ en génération de description d’image (Vinyals et al. ,2015) 8
  • 12. Modèle d’App. par transfert de connaissances Encodeur d’image Apprentissage Letter {1,2,3}-grams Données inconnues “Sophie” Ressources Images FCN Ressources Textes Décodeur Générateur de séquence GRU GRU GRU GRU <sos> S o p… Couches entièrement connectées GRU GRU GRU GRU h i e <eos> Couches entièrement connectées Couches entièrement connectées 9
  • 13. Site d’annotation participatif : RECITAL ● Classer les pages ● Marquer les zones d’écritures par type d’information ● Transcrire les zones ● Valider les transcriptions candidates proposées par d’autres utilisateurs ⇒ Récupération des données sur les zones de titres, segmentation en ligne des blocs de titres et validation manuelle des transcriptions ⇒ 971 lignes de titres annotées (images) ⇒ 4 938 mots soit un vocabulaire de 1 431 mots uniques 10 http://recital.univ-nantes.fr/
  • 14. Une nouvelle ressource pour la CI ● 23 oeuvres traitant de la CI ● Période de publication : XVIIIème siècle ● Scripts bilingues (en Italien et en Français), des répertoires d’ œuvres, des livres d’anecdotes sur le théâtre italien ● Très bruités 11
  • 15. Les ressources (images) disponibles RIMES (RM) Reconnaissance et Indexation de données Manuscrites et de facsimilés est une base française de demandes administratives (Grosicki & El-Abed, 2011) Los Esposalles (ESP) Registres de mariages espagnols du XV au XVII siècle (Romero et al., 2013) Georges Washington (GW) 20 lettres de correspondance en anglais datant du XVIII siècle (Fischer et al., 2012) Wikipedia français (Wiki) 30 000 mots sélectionnés aléatoirement (Bojanowski et al., 2017) Google Livre (GCI) Oeuvres françaises traitant de la Comédie-Italienne et de la vie de la troupe 12
  • 16. Les ressources (images) disponibles RIMES (RM) Reconnaissance et Indexation de données Manuscrites et de facsimilés est une base française de demandes administratives (Grosicki & El-Abed, 2011) Los Esposalles (ESP) Registres de mariages espagnols du XV au XVII siècle (Romero et al., 2013) Georges Washington (GW) 20 lettres de correspondance en anglais datant du XVIII siècle (Fischer et al., 2012) Wikipedia français (Wiki) 30 000 mots sélectionnés aléatoirement (Bojanowski et al., 2017) Google Livre (GCI) Oeuvres françaises traitant de la Comédie-Italienne et de la vie de la troupe 12
  • 17. Vecteur de n-grammes Représentation des mots par des n-grammes de caractères (Bengio & Heigold, 2014) ● Estimation des n-grammes le plus fréquent sur nos ressources avec une longueur maximale de 3 ● Ajout des symboles de début [ et fin de mot ] ● 3n + 1 n-grammes pour chaque mot de longueur de n Vecteur final 12 500 n-grammes avec un joker pour symboliser les n-grammes absents Sophie → [S,o,p,[So,op,Sop,. . . ,ie],e] ⇒ 19 n-grammes au total 13
  • 18. Expériences menées 3 types d’expériences : ● avec la même ressource pour l’apprentissage et le test ● en ajoutant d’autres ressources pour l’apprentissage ● en utilisant uniquement des ressources différentes de l’ensemble de test, pour l’apprentissage ⇒ apprentissage par transfert 4 options : ● avec et sans dictionnaire pour aider au décodage de la séquence ● avec et sans majuscule pendant le décodage Taux de Reconnaissance de caractères = 14
  • 19. Résultats sur Registres CI Apprentissage Expe. Id N-grams % couv lexicale Sensible à la casse Insensible à la casse TRC TRM TRM + dict TRC TRM TRM + dict GCI 1 1 65,57 69,27 14,54 10,83 69,28 14,54 11,33 GCI 2 1,2,3 97,10 86,22 39,30 97,17 86,26 40,14 GCI+RM 3 1,2,3 67,58 97,27 86,57 39,23 97,27 86,57 40,07 GCI+ESP 4 1,2,3 65,83 96,96 85,87 39,09 96,96 85,87 40,07 GCI+ESP+GW+RM 5 1,2,3 67,65 95,85 79,65 38,25 97,42 87,13 39,16 RM 6 1,2,3 14,52 79,70 30,42 17,27 79,75 30,49 17,76 RM+ESP+GW 7 1,2,3 23,39 83,68 40,21 23,99 83,74 40,42 24,41 WIki 8.1 1,2,3 0 87,32 41,40 25,24 87,44 42,22 27,76 WIKI 300k 8.2 1,2,3 0 92.80 55.94 29.37 93.00 57.27 31.61 15
  • 20. Résultats sur RIMES Apprentissage N-grams % couv lexicale Sensible à la casse Insensible à la casse TRC TRM TRM + dict TRC TRM TRM + dict RM 1 75,09 83,97 43,07 28,49 83,98 43,07 28,98 RM 1,2,3 94,72 79,50 37,78 94,74 79,63 37,84 GCI+RM 1,2,3 83,93 98,25 92,0 40,49 98,25 92,0 40,55 GCI+ESP+GW+RM 1,2,3 83,95 96,22 80,73 39,14 96,22 80,74 39,45 GCI 1,2,3 58,55 95,51 81,53 38,58 95,51 81,53 38,58 GCI+ESP 1,2,3 59,04 95,46 80,61 38,15 95,46 80,61 38,15 WIki 1,2,3 0 90,36 67,57 35,20 90,43 67,69 36,12 16
  • 21. Résultats sur Los Esposalles Apprentissage N-grams % couv lexicale Sensible à la casse Insensible à la casse TRC TRM TRM + dict TRC TRM TRM + dict GCI+ESP 1,2,3 85,94 98,57 91,11 56,51 98,57 91,11 57,14 GCI+ESP+GW+RM 1,2,3 86,10 98,40 90,79 57,62 98,40 90,79 57,78 GCI 1,2,3 15,96 91,68 65,87 44,76 91,69 65,87 44,76 RM 1,2,3 7,27 72,83 18,25 12,70 72,86 18,25 12,86 GCI+RM 1,2,3 17,37 92,05 64,13 46,51 92,06 64,13 47,14 GCI+RM+GW 1,2,3 17,69 91,68 64,60 44,60 91,70 64,76 45,07 WIki 1,2,3 0 84,52 34,28 32,38 84,71 35,08 34,12 17
  • 22. Type d’Erreur Expe. Id Mot d’origine Mot reconstitué Caract. multiplié 4 cavalcade cacaadade 3 clemence ccceeene Caract. interverti 6 suitte usitte Caract. de début 5 [diverstissemens] ddevvestissemens] 6 Soldat [ollat Analyse des erreurs sur RCI 18
  • 23. Conclusion et Perspectives ● Approche valide au niveau mot → TRC > 90% et des TRM dépassant la couverture lexicale estimée ● Un réseau simple (4 couches) mais efficace ● Recherche de ressources sous-exploitées enrichissante ● Bruité le vecteur en entrée du décodeur artificiellement (en cours) ● Ajouter des systèmes d'attention : ○ L'encodeur → pour se focaliser sur un mot à la fois ○ Le décodeur → pour prendre en compte les n-grammes utilisés à chaque génération d'un caractère 19http://recital.univ-nantes.fr/