SlideShare une entreprise Scribd logo
1  sur  28
Le projet LectAuRep
Lecture automatique de répertoires
La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Les archives au défi du numérique
Ministère de l’Europe et des Affaires étrangères
La Courneuve, 17-18 octobre 2019
I. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
II. Ambitions
1. Enjeux
2. Corpus
III. Sur le terrain
1. Phase 1 (Transkribus)
2. Phase 2 (eScriptorium)
3. Phase 3 (2020)(eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
I. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
Le projet LectAuRep
Lecture automatique de répertoires
Cadre juridique
La convention MIC/DIN - Inria
Convention-cadre signée le 12 décembre 2016
projet « préliminaire » : second semestre 2018 (15000 €)
projet « approfondi » développé en 2019 (65000 €)
projet « approfondi » à venir en 2020 (65000 €)
MIC, département de l’innovation numérique :
– Bertrand Sajus
Inria, équipe ALMAnaCH :
– Marie-Laurence Bonhomme (stagiaire M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Marc Bui (EPHE, projet eScripta)
– Alix Chagué (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 2)
– Benjamin Kiessling (projet eScripta)
– Eric de La Clergerie (Inria)
– Marie Puren (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Charles Riondet (contractuel M2 TNAH de l’Ecole nationale des chartes, phase 1)
– Laurent Romary, coordonnateur du projet pour l’INRIA
– Daniel Stökl Ben Ezra (EPHE, projet eScripta)
– Lionel Tadonfouet (phase 2)
– Robin Tissot (phase 2, projet eScripta)
Archives nationales :
– Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC)
– Gaetano Piraino, Frédéric Zamarreno (DMOASI)
Équipes
Phasage
Phase 1 (2018)
Étude de faisabilité et état de l’art (plateforme Transkribus).
Phase 2 (2019)
Explorer les possibilités de segmentation automatique et de reconnaissance
d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles.
Nouveau projet : eScripta (ANR).
Nouvelle plateforme : eScriptorium, calibrée pour des écritures en alphabets
non latins ou non alphabétiques, allant de droite à gauche, de haut en bas…
(+ Huma-Num, ShareDocs).
II. Ambitions
1. Enjeux
2. Corpus
Le projet LectAuRep
Lecture automatique de répertoires
Enjeux
☛ pour le public des archives
☛ pour le réseau des services publics d’archives
Library of Congress, Rosenwald 4, fol. 5r
Corpus
Les répertoires de notaires de Paris (1803-années 1940)
Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre
1803 et 1944.
Plus de 900 notaires différents.
Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun).
Plusieurs milliers de mains de scribes différents.
Quelques dizaines de répertoires numérisés depuis 2013, directement
d’après les originaux (pas d’après microfilms : sans nuances de gris).
Éléments diplomatiques
III. Sur le terrain
1. Phase 1 (Transkribus)
2. Phase 2 (eScriptorium)
3. Phase 3 (2020)(eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
Phase 1 (Transkribus)
Analyse de la mise en page
Marges : vides (sauf exceptions)
Numéro de l’acte : nombre entre 1 et 3000
Date de l’acte (jour) : nombre entre 1 et 31
Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé
Date de l’acte (année et mois) : écritures mixtes (imprimées et
manuscrites)
Description de l’acte : nom et adresse des signataires, prix de vente
d'un bien, date d’un décès, etc.
Date d’enregistrement (jour) : nombre entre 1 et 31
Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
Traitements
1. Classification par reconnaissance de formes
Colonnes de chiffres ou de nombres
- Dates
- Numéros d’actes
- Taxes
Colonnes de texte « simple » des types d’actes
2. Reconnaissance de caractères manuscrits : obtention de données
d'entraînement pour construire un modèle de reconnaissance
Segmentation puis transcription collectives internes d’une
cinquantaine de pages d'un répertoire avec Transkribus (importation
des images numérisées, segmentation, transcription cellule par cellule)
Résultats de la phase 1
Classification par reconnaissance de formes
☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les
chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de
neurones.
Reconnaissance de caractères manuscrits
☛Typologies d’actes : premier travail de classification manuelle (à enrichir).
Difficultés rencontrées :
Hétérogénéité et polysémie des formes (ex. ct)
Typologies multiples pour un acte (ex. mariage)
Typologie absente (quand un acte est la « suite » d’un premier acte)
Respecter le texte à la lettre (« vérité terrain »)
Entraînement d’un modèle de reconnaissance de caractères manuscrits à
partir des pages d’un seul scribe transcrites manuellement jusqu’à un
niveau de qualité dit « vérité terrain » :
Modèle M1 : 40 pages
Modèle M2 : 50 pages (1 million de mots)
☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même
répertoire :
Modèle M1 : 13,5 %
Modèle M2 : 10,4 %
Ce taux d’erreur reste considérable, mais il peut être amélioré.
☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc
d'autres mains.
Les résultats ne sont pas satisfaisants (TEC autour de 40 %) : il faut des
données d’entraînement plus hétérogènes.
Un golden set et un random set d’images de répertoires (10000 en noir et
blanc et près de 1000 en couleurs) ont été fournis par l’équipe AN à l’équipe
INRIA et mis à disposition sur ShareDocs.
Phase 2 (eScriptorium)
Fonctionnalités disponibles
chargement d’image (PNG, JPEG, TIFF...)
import d’images (IIIF)
gestion manuelle des métadonnées
binarisation des images
segmentation automatique / manuelle par régions et par lignes
transcription manuelle, ou automatique avec un modèle préentraîné
export (XML ALTO, texte)
Fonctionnalités à venir
import automatique des métadonnées
amélioration de la segmentation
entraînement de modèles de transcription dans l’interface
export au format XML TEI
La plateforme eScriptorium, interface graphique pour Kraken, propose des
fonctionnalités de traitement d’image et de texte utiles pour la segmentation
et la transcription automatiques de documents numérisés.
Plusieurs mains de scribes par répertoire
Plus de 1000 répertoires
Un modèle à entraîner pour chaque main…
…Vers une interface collaborative adossée à la plateforme
eScriptorium de segmentation et transcription, pour entraîner puis
corriger les données obtenues par automatisation.
Phase 3 (2020) (eScriptorium)
…avec, si possible, des outils de visualisation et de traitement des
données ;
…avec, si possible, des fonctionnalités de reconnaissance d’entités
nommées et de liage de ces entités à des référentiels internes ou
externes aux Archives nationales.
Site de Paris
60, rue des Francs-Bourgeois
75003 Paris
Site de Pierrefitte-sur-Seine
59, rue Guynemer
93380 Pierrefitte-sur-Seine
www.archives-nationales.culture.gouv.fr
☛ Initiative de recherche interdisciplinaire et stratégique Scripta-
PSL. Histoire et pratiques de l’écrit et carnet de recherche eScripta
(en particulier la galerie de tutoriels vidéo)
☛ Projet Himanis (HIstorical MANuscript Indexing for user-
controlled Search) et carnet de recherche
☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des
Notaires parisiens Segmentation automatique et reconnaissance
d'écriture : Rapport exploratoire, [contrat] Inria, 2018
☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier
Culture/INRIA, 22 novembre 2018
☛ Indexation collaborative de registres de contrats de mariage de
commerçants, 1829-1934, depuis le carnet de recherche Archives
nationales participatives
☛ Projet Filigranes pour tous : carnet de recherche
☛ Projet Testaments de Poilus
Merel pcnr votre affenfion : )
aurelia.rostaing@culture.gouv.fr
marie-francoise.limon@culture.gouv.fr

Contenu connexe

Similaire à Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires

Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...AssociationAF
 
API(dot)Culture : Images et IA
API(dot)Culture : Images et IAAPI(dot)Culture : Images et IA
API(dot)Culture : Images et IAIsabelle REUSA
 
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Tam Youcef
 
Projet d archivage
Projet d archivageProjet d archivage
Projet d archivageTam Youcef
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Equipex Biblissima
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Xavier LAIR
 
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebTEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebMokhtar Ben Henda
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Equipex Biblissima
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésEquipex Biblissima
 
Fouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPixFouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPixJean-Philippe Moreux
 
Formation Culture numerique - Mise en place d'une offre de loisirs numerique...
Formation Culture numerique -  Mise en place d'une offre de loisirs numerique...Formation Culture numerique -  Mise en place d'une offre de loisirs numerique...
Formation Culture numerique - Mise en place d'une offre de loisirs numerique...ABES
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)ABES
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)ABES
 

Similaire à Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires (20)

Les BVH & l’étude des matériels d’imprimerie anciens
 Les BVH & l’étude des matériels d’imprimerie anciens Les BVH & l’étude des matériels d’imprimerie anciens
Les BVH & l’étude des matériels d’imprimerie anciens
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
 
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIREARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
 
API(dot)Culture : Images et IA
API(dot)Culture : Images et IAAPI(dot)Culture : Images et IA
API(dot)Culture : Images et IA
 
Jean Rohmer
Jean RohmerJean Rohmer
Jean Rohmer
 
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
 
Projet d archivage
Projet d archivageProjet d archivage
Projet d archivage
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998
 
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebTEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Fouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPixFouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPix
 
Cours cryptographie
Cours cryptographie  Cours cryptographie
Cours cryptographie
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Formation Culture numerique - Mise en place d'une offre de loisirs numerique...
Formation Culture numerique -  Mise en place d'une offre de loisirs numerique...Formation Culture numerique -  Mise en place d'une offre de loisirs numerique...
Formation Culture numerique - Mise en place d'une offre de loisirs numerique...
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)
 

Plus de Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

Plus de Aurélia Rostaing (13)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires

  • 1. Le projet LectAuRep Lecture automatique de répertoires La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires Les archives au défi du numérique Ministère de l’Europe et des Affaires étrangères La Courneuve, 17-18 octobre 2019
  • 2. I. Contexte institutionnel 1. Cadre juridique 2. Equipes 3. Phasage II. Ambitions 1. Enjeux 2. Corpus III. Sur le terrain 1. Phase 1 (Transkribus) 2. Phase 2 (eScriptorium) 3. Phase 3 (2020)(eScriptorium) Le projet LectAuRep Lecture automatique de répertoires
  • 3. I. Contexte institutionnel 1. Cadre juridique 2. Equipes 3. Phasage Le projet LectAuRep Lecture automatique de répertoires
  • 4. Cadre juridique La convention MIC/DIN - Inria Convention-cadre signée le 12 décembre 2016 projet « préliminaire » : second semestre 2018 (15000 €) projet « approfondi » développé en 2019 (65000 €) projet « approfondi » à venir en 2020 (65000 €)
  • 5. MIC, département de l’innovation numérique : – Bertrand Sajus Inria, équipe ALMAnaCH : – Marie-Laurence Bonhomme (stagiaire M2 TNAH de l’Ecole nationale des chartes, phase 1) – Marc Bui (EPHE, projet eScripta) – Alix Chagué (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 2) – Benjamin Kiessling (projet eScripta) – Eric de La Clergerie (Inria) – Marie Puren (contractuelle M2 TNAH de l’Ecole nationale des chartes, phase 1) – Charles Riondet (contractuel M2 TNAH de l’Ecole nationale des chartes, phase 1) – Laurent Romary, coordonnateur du projet pour l’INRIA – Daniel Stökl Ben Ezra (EPHE, projet eScripta) – Lionel Tadonfouet (phase 2) – Robin Tissot (phase 2, projet eScripta) Archives nationales : – Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC) – Gaetano Piraino, Frédéric Zamarreno (DMOASI) Équipes
  • 6. Phasage Phase 1 (2018) Étude de faisabilité et état de l’art (plateforme Transkribus). Phase 2 (2019) Explorer les possibilités de segmentation automatique et de reconnaissance d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles. Nouveau projet : eScripta (ANR). Nouvelle plateforme : eScriptorium, calibrée pour des écritures en alphabets non latins ou non alphabétiques, allant de droite à gauche, de haut en bas… (+ Huma-Num, ShareDocs).
  • 7. II. Ambitions 1. Enjeux 2. Corpus Le projet LectAuRep Lecture automatique de répertoires
  • 8. Enjeux ☛ pour le public des archives ☛ pour le réseau des services publics d’archives Library of Congress, Rosenwald 4, fol. 5r
  • 9. Corpus Les répertoires de notaires de Paris (1803-années 1940) Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre 1803 et 1944. Plus de 900 notaires différents. Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun). Plusieurs milliers de mains de scribes différents. Quelques dizaines de répertoires numérisés depuis 2013, directement d’après les originaux (pas d’après microfilms : sans nuances de gris).
  • 11. III. Sur le terrain 1. Phase 1 (Transkribus) 2. Phase 2 (eScriptorium) 3. Phase 3 (2020)(eScriptorium) Le projet LectAuRep Lecture automatique de répertoires
  • 12. Phase 1 (Transkribus) Analyse de la mise en page Marges : vides (sauf exceptions) Numéro de l’acte : nombre entre 1 et 3000 Date de l’acte (jour) : nombre entre 1 et 31 Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé Date de l’acte (année et mois) : écritures mixtes (imprimées et manuscrites) Description de l’acte : nom et adresse des signataires, prix de vente d'un bien, date d’un décès, etc. Date d’enregistrement (jour) : nombre entre 1 et 31 Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
  • 13. Traitements 1. Classification par reconnaissance de formes Colonnes de chiffres ou de nombres - Dates - Numéros d’actes - Taxes Colonnes de texte « simple » des types d’actes 2. Reconnaissance de caractères manuscrits : obtention de données d'entraînement pour construire un modèle de reconnaissance Segmentation puis transcription collectives internes d’une cinquantaine de pages d'un répertoire avec Transkribus (importation des images numérisées, segmentation, transcription cellule par cellule)
  • 14.
  • 15.
  • 16. Résultats de la phase 1 Classification par reconnaissance de formes ☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de neurones. Reconnaissance de caractères manuscrits ☛Typologies d’actes : premier travail de classification manuelle (à enrichir). Difficultés rencontrées : Hétérogénéité et polysémie des formes (ex. ct) Typologies multiples pour un acte (ex. mariage) Typologie absente (quand un acte est la « suite » d’un premier acte) Respecter le texte à la lettre (« vérité terrain »)
  • 17. Entraînement d’un modèle de reconnaissance de caractères manuscrits à partir des pages d’un seul scribe transcrites manuellement jusqu’à un niveau de qualité dit « vérité terrain » : Modèle M1 : 40 pages Modèle M2 : 50 pages (1 million de mots) ☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même répertoire : Modèle M1 : 13,5 % Modèle M2 : 10,4 % Ce taux d’erreur reste considérable, mais il peut être amélioré. ☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc d'autres mains. Les résultats ne sont pas satisfaisants (TEC autour de 40 %) : il faut des données d’entraînement plus hétérogènes.
  • 18. Un golden set et un random set d’images de répertoires (10000 en noir et blanc et près de 1000 en couleurs) ont été fournis par l’équipe AN à l’équipe INRIA et mis à disposition sur ShareDocs. Phase 2 (eScriptorium)
  • 19. Fonctionnalités disponibles chargement d’image (PNG, JPEG, TIFF...) import d’images (IIIF) gestion manuelle des métadonnées binarisation des images segmentation automatique / manuelle par régions et par lignes transcription manuelle, ou automatique avec un modèle préentraîné export (XML ALTO, texte)
  • 20. Fonctionnalités à venir import automatique des métadonnées amélioration de la segmentation entraînement de modèles de transcription dans l’interface export au format XML TEI
  • 21. La plateforme eScriptorium, interface graphique pour Kraken, propose des fonctionnalités de traitement d’image et de texte utiles pour la segmentation et la transcription automatiques de documents numérisés.
  • 22.
  • 23.
  • 24.
  • 25. Plusieurs mains de scribes par répertoire Plus de 1000 répertoires Un modèle à entraîner pour chaque main… …Vers une interface collaborative adossée à la plateforme eScriptorium de segmentation et transcription, pour entraîner puis corriger les données obtenues par automatisation. Phase 3 (2020) (eScriptorium)
  • 26. …avec, si possible, des outils de visualisation et de traitement des données ; …avec, si possible, des fonctionnalités de reconnaissance d’entités nommées et de liage de ces entités à des référentiels internes ou externes aux Archives nationales.
  • 27. Site de Paris 60, rue des Francs-Bourgeois 75003 Paris Site de Pierrefitte-sur-Seine 59, rue Guynemer 93380 Pierrefitte-sur-Seine www.archives-nationales.culture.gouv.fr ☛ Initiative de recherche interdisciplinaire et stratégique Scripta- PSL. Histoire et pratiques de l’écrit et carnet de recherche eScripta (en particulier la galerie de tutoriels vidéo) ☛ Projet Himanis (HIstorical MANuscript Indexing for user- controlled Search) et carnet de recherche ☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des Notaires parisiens Segmentation automatique et reconnaissance d'écriture : Rapport exploratoire, [contrat] Inria, 2018 ☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier Culture/INRIA, 22 novembre 2018 ☛ Indexation collaborative de registres de contrats de mariage de commerçants, 1829-1934, depuis le carnet de recherche Archives nationales participatives ☛ Projet Filigranes pour tous : carnet de recherche ☛ Projet Testaments de Poilus
  • 28. Merel pcnr votre affenfion : ) aurelia.rostaing@culture.gouv.fr marie-francoise.limon@culture.gouv.fr