La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
Contenu connexe
Similaire à Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Similaire à Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires (20)
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
1. Le projet LectAuRep
Lecture automatique de répertoires
La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Les archives au défi du numérique
Ministère de l’Europe et des Affaires étrangères
La Courneuve, 17-18 octobre 2019
2. I. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
II. Ambitions
1. Enjeux
2. Corpus
III. Sur le terrain
1. Phase 1 (Transkribus)
2. Phase 2 (eScriptorium)
3. Phase 3 (2020)(eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
3. I. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
Le projet LectAuRep
Lecture automatique de répertoires
4. Cadre juridique
La convention MIC/DIN - Inria
Convention-cadre signée le 12 décembre 2016
projet « préliminaire » : second semestre 2018 (15000 €)
projet « approfondi » développé en 2019 (65000 €)
projet « approfondi » à venir en 2020 (65000 €)
5. MIC, département de l’innovation numérique :
– Bertrand Sajus
Inria, équipe ALMAnaCH :
– Marie-Laurence Bonhomme (stagiaire M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Marc Bui (EPHE, projet eScripta)
– Alix Chagué (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 2)
– Benjamin Kiessling (projet eScripta)
– Eric de La Clergerie (Inria)
– Marie Puren (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Charles Riondet (contractuel M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Laurent Romary, coordonnateur du projet pour l’INRIA
– Daniel Stökl Ben Ezra (EPHE, projet eScripta)
– Lionel Tadonfouet (phase 2)
– Robin Tissot (phase 2, projet eScripta)
Archives nationales :
– Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC)
– Gaetano Piraino, Frédéric Zamarreno (DMOASI)
Équipes
6. Phasage
Phase 1 (2018)
Étude de faisabilité et état de l’art (plateforme Transkribus).
Phase 2 (2019)
Explorer les possibilités de segmentation automatique et de reconnaissance
d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles.
Nouveau projet : eScripta (ANR).
Nouvelle plateforme : eScriptorium, calibrée pour des écritures en alphabets
non latins ou non alphabétiques, allant de droite à gauche, de haut en bas…
(+ Huma-Num, ShareDocs).
8. Enjeux
☛ pour le public des archives
☛ pour le réseau des services publics d’archives
Library of Congress, Rosenwald 4, fol. 5r
9. Corpus
Les répertoires de notaires de Paris (1803-années 1940)
Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre
1803 et 1944.
Plus de 900 notaires différents.
Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun).
Plusieurs milliers de mains de scribes différents.
Quelques dizaines de répertoires numérisés depuis 2013, directement
d’après les originaux (pas d’après microfilms : sans nuances de gris).
11. III. Sur le terrain
1. Phase 1 (Transkribus)
2. Phase 2 (eScriptorium)
3. Phase 3 (2020)(eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
12. Phase 1 (Transkribus)
Analyse de la mise en page
Marges : vides (sauf exceptions)
Numéro de l’acte : nombre entre 1 et 3000
Date de l’acte (jour) : nombre entre 1 et 31
Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé
Date de l’acte (année et mois) : écritures mixtes (imprimées et
manuscrites)
Description de l’acte : nom et adresse des signataires, prix de vente
d'un bien, date d’un décès, etc.
Date d’enregistrement (jour) : nombre entre 1 et 31
Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
13. Traitements
1. Classification par reconnaissance de formes
Colonnes de chiffres ou de nombres
- Dates
- Numéros d’actes
- Taxes
Colonnes de texte « simple » des types d’actes
2. Reconnaissance de caractères manuscrits : obtention de données
d'entraînement pour construire un modèle de reconnaissance
Segmentation puis transcription collectives internes d’une
cinquantaine de pages d'un répertoire avec Transkribus (importation
des images numérisées, segmentation, transcription cellule par cellule)
14.
15.
16. Résultats de la phase 1
Classification par reconnaissance de formes
☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les
chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de
neurones.
Reconnaissance de caractères manuscrits
☛Typologies d’actes : premier travail de classification manuelle (à enrichir).
Difficultés rencontrées :
Hétérogénéité et polysémie des formes (ex. ct)
Typologies multiples pour un acte (ex. mariage)
Typologie absente (quand un acte est la « suite » d’un premier acte)
Respecter le texte à la lettre (« vérité terrain »)
17. Entraînement d’un modèle de reconnaissance de caractères manuscrits à
partir des pages d’un seul scribe transcrites manuellement jusqu’à un
niveau de qualité dit « vérité terrain » :
Modèle M1 : 40 pages
Modèle M2 : 50 pages (1 million de mots)
☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même
répertoire :
Modèle M1 : 13,5 %
Modèle M2 : 10,4 %
Ce taux d’erreur reste considérable, mais il peut être amélioré.
☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc
d'autres mains.
Les résultats ne sont pas satisfaisants (TEC autour de 40 %) : il faut des
données d’entraînement plus hétérogènes.
18. Un golden set et un random set d’images de répertoires (10000 en noir et
blanc et près de 1000 en couleurs) ont été fournis par l’équipe AN à l’équipe
INRIA et mis à disposition sur ShareDocs.
Phase 2 (eScriptorium)
19. Fonctionnalités disponibles
chargement d’image (PNG, JPEG, TIFF...)
import d’images (IIIF)
gestion manuelle des métadonnées
binarisation des images
segmentation automatique / manuelle par régions et par lignes
transcription manuelle, ou automatique avec un modèle préentraîné
export (XML ALTO, texte)
20. Fonctionnalités à venir
import automatique des métadonnées
amélioration de la segmentation
entraînement de modèles de transcription dans l’interface
export au format XML TEI
21. La plateforme eScriptorium, interface graphique pour Kraken, propose des
fonctionnalités de traitement d’image et de texte utiles pour la segmentation
et la transcription automatiques de documents numérisés.
22.
23.
24.
25. Plusieurs mains de scribes par répertoire
Plus de 1000 répertoires
Un modèle à entraîner pour chaque main…
…Vers une interface collaborative adossée à la plateforme
eScriptorium de segmentation et transcription, pour entraîner puis
corriger les données obtenues par automatisation.
Phase 3 (2020) (eScriptorium)
26. …avec, si possible, des outils de visualisation et de traitement des
données ;
…avec, si possible, des fonctionnalités de reconnaissance d’entités
nommées et de liage de ces entités à des référentiels internes ou
externes aux Archives nationales.
27. Site de Paris
60, rue des Francs-Bourgeois
75003 Paris
Site de Pierrefitte-sur-Seine
59, rue Guynemer
93380 Pierrefitte-sur-Seine
www.archives-nationales.culture.gouv.fr
☛ Initiative de recherche interdisciplinaire et stratégique Scripta-
PSL. Histoire et pratiques de l’écrit et carnet de recherche eScripta
(en particulier la galerie de tutoriels vidéo)
☛ Projet Himanis (HIstorical MANuscript Indexing for user-
controlled Search) et carnet de recherche
☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des
Notaires parisiens Segmentation automatique et reconnaissance
d'écriture : Rapport exploratoire, [contrat] Inria, 2018
☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier
Culture/INRIA, 22 novembre 2018
☛ Indexation collaborative de registres de contrats de mariage de
commerçants, 1829-1934, depuis le carnet de recherche Archives
nationales participatives
☛ Projet Filigranes pour tous : carnet de recherche
☛ Projet Testaments de Poilus