Décodeur neuronal pour la transcription de documents manuscrits anciens

Décodeur neuronal pour la transcription
de documents manuscrits anciens
Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou et
Christian Viard-gaudin
TALN - 17 mai 2018 à Rennes Laboratoire LS2N équipes TALN - IPI

Sommaire
I. Projet CIRESFI
II. Modèles de reconnaissance d’écriture
III. Les ressources utilisées
IV. Expériences et Résultats
V. Conclusion et Perspectives
2

Contexte politique du XVIII siècle
1669 Louis XIV fonde l’Académie Royale de musique (Opéra).
1680 Louis XIV fonde la Comédie-Française et leur donne le privilège d’être les seuls lieux de
représentations de la musique et du théâtre.
1697 Les comédiens italiens n’ont plus le droit de jouer et sont renvoyés de Paris.
1716 Le régent (Duc d’Orléans) autorise de nouveau les comédiens italiens à jouer à Paris.
⇒ Début des registres étudiés.
1762 Fusion de l’Opéra et de la Comédie-Italienne
1780 Interdiction de jouer en italien, la troupe reprend le nom d’Opéra-Comique.
1783 Déménagement dans le nouveau théâtre Salle Favard avec plus de 1100 places
1791 - 1793 Fin des privilèges et liberté des théâtres est proclamée
⇒ Fin des registres étudiés 3

Objectifs du projet CIRESFI
Contrainte et Intégration : pour une Réévaluation des Spectacles Forains et
Italiens sous l’Ancien Régime
1. Contextualisation historico-politique : intégration jusqu’à l’obtention du
privilège de l’Opéra ;
2. La contrainte comme moteur : révolution dans la forme du théâtre avec
des nouveaux genres de pièces par écriteaux, monologues à plusieurs,
pantomimes, opéra-comique ;
3. L’économie des spectacles : retracer les coûts de production et
organisation;
4. Exploration et analyse innovante : numérisation, extraction d’information,
et indexation des informations contenus dans les ressources disponibles.
4

Les registres financiers de la Comédie-Italienne
● Période : 1716 à 1793
● 63 registres financiers ⇒ 63 saisons
● 27 000 pages
● Différentes informations : les recettes, les dépenses, les acteurs et
employés de la troupe, et d’autres informations contextuelles sur l’
époque
● 7 types de pages identifiés : comptes journaliers, mensuels, et annuel,
page blanche, couverture, l’etat des pensionnaires
5

Difficultés des registres
Détection et segmentation
● Divers types de documents
● Mise en pages variée
6

● Divers types de documents
● Mise en pages variée
Reconnaissance d’écriture
● Plusieurs scripteurs : varie selon les registres
● Disposition et informations changeantes : date et mention des jours
de relâche, de fermeture du théâtre, liste des pièces jouées et
précisions, Dépenses, Recettes, Acteurs, Notes, …
● Différentes langues : dialectes italiens, français
● Majoritairement construit avec des entitées nommées : “Raton et
Rosette”

● Disposition et informations changeantes : mention des jours de relâche,
de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . .
● Différentes langues : italien, vénitien, français
● Majoritairement construit avec des entitées nommées : “Raton et Rosette”
● Caractères spéciaux et abréviations :
(a) Rose (b) Invisible (c) Etc. (d) arlequin 6

● Disposition et informations changeantes : mention des jours de relâche,
de fermeture du théâtre, précision sur la pièce jouée dans le titre, . . .
● Différentes langues : italien, vénitien, français
● Majoritairement construit avec des entitées nommées : “Raton et Rosette”
● Caractères spéciaux et abréviations :
(a) Rose (b) Invisible (c) Etc. (d) arlequin
Objectif
Étiqueter et indexer automatiquement les titres des comptes
quotidiens
⇒ Absence de vérité terrain
6

Etat de l’art en reconnaissance d’écriture
Les enjeux en reconnaissance d’objets :
● détection et segmentation des lignes
● détection automatique de mots-clés
● reconnaissance d’écriture
De plus en plus de compétitions autour des documents historiques : Cloppet
et al., 2016; Pratikakis et al., 2016; Sanchez et al., 2017.
Les systèmes doivent s’adapter au support des documents, au niveau de
détérioration ou encore au style de l’écriture
7

Etat de l’art en reconnaissance d’écriture
● Réseaux multi-dimensionnels utilisant des cellules
de type Long Short Term Memory (MDLSTM) et
CTC enrichie par de l’attention (Bluche et al., 2017)
● Réseaux récurrents à convolution (CRNN) associés
à des réseaux BLSTM (Granell et al., 2018)
Problèmes majeurs :
● Quantité de ressources nécessaires pour l’apprentissage
● Vocabulaire utilisé pour construire un ML ou un dictionnaire
Solution proposée : l’apprentissage transductif par transfert de connaissance
● Réseaux de type Encodeur-Décodeur utilisés
○ en traduction automatique (Cho et al., 2014 )
○ en génération de description d’image (Vinyals et al. ,2015) 8

Modèle d’App. par transfert de connaissances
Encodeur d’image
Apprentissage
Letter
{1,2,3}-grams
Données
inconnues
“Sophie”
Ressources
Images
FCN
Ressources
Textes
Décodeur Générateur de séquence
GRU
GRU
GRU
GRU
<sos>
S
o
p…
Couches
entièrement
connectées
GRU
GRU
GRU
GRU
h
i
e
<eos>
Couches
entièrement
connectées
Couches
entièrement
connectées
9

Site d’annotation participatif : RECITAL
● Classer les pages
● Marquer les zones d’écritures par type d’information
● Transcrire les zones
● Valider les transcriptions candidates proposées par d’autres utilisateurs
⇒ Récupération des données sur les zones de titres, segmentation en ligne
des blocs de titres et validation manuelle des transcriptions
⇒ 971 lignes de titres annotées (images)
⇒ 4 938 mots soit un vocabulaire de 1 431 mots uniques
10
http://recital.univ-nantes.fr/

Une nouvelle ressource pour la CI
● 23 oeuvres traitant de la CI
● Période de publication :
XVIIIème siècle
● Scripts bilingues (en Italien et
en Français), des répertoires d’
œuvres, des livres d’anecdotes
sur le théâtre italien
● Très bruités
11

Les ressources (images) disponibles
RIMES (RM)
Reconnaissance et Indexation de données
Manuscrites et de facsimilés est une base
française de demandes administratives
(Grosicki & El-Abed, 2011)
Los Esposalles (ESP)
Registres de mariages espagnols du XV au XVII
siècle (Romero et al., 2013)
Georges Washington (GW)
20 lettres de correspondance en anglais
datant du XVIII siècle (Fischer et al., 2012)
Wikipedia français (Wiki)
30 000 mots sélectionnés aléatoirement
(Bojanowski et al., 2017)
Google Livre (GCI)
Oeuvres françaises traitant de la
Comédie-Italienne et de la vie de la troupe
12

Vecteur de n-grammes
Représentation des mots par des n-grammes de caractères (Bengio & Heigold,
2014)
● Estimation des n-grammes le plus fréquent sur nos ressources avec une
longueur maximale de 3
● Ajout des symboles de début [ et fin de mot ]
● 3n + 1 n-grammes pour chaque mot de longueur de n
Vecteur final 12 500 n-grammes avec un joker pour symboliser les n-grammes
absents
Sophie → [S,o,p,[So,op,Sop,. . . ,ie],e] ⇒ 19 n-grammes au total
13

Expériences menées
3 types d’expériences :
● avec la même ressource pour l’apprentissage et le test
● en ajoutant d’autres ressources pour l’apprentissage
● en utilisant uniquement des ressources différentes de l’ensemble de test,
pour l’apprentissage ⇒ apprentissage par transfert
4 options :
● avec et sans dictionnaire pour aider au décodage de la séquence
● avec et sans majuscule pendant le décodage
Taux de Reconnaissance de caractères =
14

Résultats sur Registres CI
Apprentissage
Expe.
Id
N-grams
% couv
lexicale
Sensible à la casse Insensible à la casse
TRC TRM TRM +
dict
TRC TRM TRM +
dict
GCI 1 1
65,57
69,27 14,54 10,83 69,28 14,54 11,33
GCI 2 1,2,3 97,10 86,22 39,30 97,17 86,26 40,14
GCI+RM 3 1,2,3 67,58 97,27 86,57 39,23 97,27 86,57 40,07
GCI+ESP 4 1,2,3 65,83 96,96 85,87 39,09 96,96 85,87 40,07
GCI+ESP+GW+RM 5 1,2,3 67,65 95,85 79,65 38,25 97,42 87,13 39,16
RM 6 1,2,3 14,52 79,70 30,42 17,27 79,75 30,49 17,76
RM+ESP+GW 7 1,2,3 23,39 83,68 40,21 23,99 83,74 40,42 24,41
WIki 8.1 1,2,3 0 87,32 41,40 25,24 87,44 42,22 27,76
WIKI 300k 8.2 1,2,3 0 92.80 55.94 29.37 93.00 57.27 31.61
15

Résultats sur RIMES
Apprentissage N-grams
% couv
lexicale
TRC TRM
TRM +
dict
TRC TRM
TRM +
dict
RM 1
75,09
83,97 43,07 28,49 83,98 43,07 28,98
RM 1,2,3 94,72 79,50 37,78 94,74 79,63 37,84
GCI+RM 1,2,3 83,93 98,25 92,0 40,49 98,25 92,0 40,55
GCI+ESP+GW+RM 1,2,3 83,95 96,22 80,73 39,14 96,22 80,74 39,45
GCI 1,2,3 58,55 95,51 81,53 38,58 95,51 81,53 38,58
GCI+ESP 1,2,3 59,04 95,46 80,61 38,15 95,46 80,61 38,15
WIki 1,2,3 0 90,36 67,57 35,20 90,43 67,69 36,12
16

Résultats sur Los Esposalles
Apprentissage N-grams
% couv
lexicale
TRC TRM
TRM +
dict
TRC TRM
TRM +
dict
GCI+ESP 1,2,3 85,94 98,57 91,11 56,51 98,57 91,11 57,14
GCI+ESP+GW+RM 1,2,3 86,10 98,40 90,79 57,62 98,40 90,79 57,78
GCI 1,2,3 15,96 91,68 65,87 44,76 91,69 65,87 44,76
RM 1,2,3 7,27 72,83 18,25 12,70 72,86 18,25 12,86
GCI+RM 1,2,3 17,37 92,05 64,13 46,51 92,06 64,13 47,14
GCI+RM+GW 1,2,3 17,69 91,68 64,60 44,60 91,70 64,76 45,07
WIki 1,2,3 0 84,52 34,28 32,38 84,71 35,08 34,12
17

Type d’Erreur Expe. Id Mot d’origine Mot reconstitué
Caract.
multiplié
4 cavalcade cacaadade
3 clemence ccceeene
Caract. interverti 6 suitte usitte
Caract. de début
5 [diverstissemens] ddevvestissemens]
6 Soldat [ollat
Analyse des erreurs sur RCI
18

Conclusion et Perspectives
● Approche valide au niveau mot → TRC > 90% et des TRM dépassant la
couverture lexicale estimée
● Un réseau simple (4 couches) mais efficace
● Recherche de ressources sous-exploitées enrichissante
● Bruité le vecteur en entrée du décodeur artificiellement (en cours)
● Ajouter des systèmes d'attention :
○ L'encodeur → pour se focaliser sur un mot à la fois
○ Le décodeur → pour prendre en compte les n-grammes utilisés à
chaque génération d'un caractère
19http://recital.univ-nantes.fr/

Décodeur neuronal pour la transcription de documents manuscrits anciens

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Décodeur neuronal pour la transcription de documents manuscrits anciens