SlideShare une entreprise Scribd logo
1  sur  7
Télécharger pour lire hors ligne
Cible de Lectaurep : ~ 3000 répertoires de notaires (~ 1,8 M pages)
Cible de Lectaurep : des milliers d’écritures notariales
Echantillonnage : 150/200 mains
~ 22000 pages (RE), 20000 pages (CM-SD), 700 pages (Bronod)
~ 2000 p. transcrites
(qq. dizaines de mains)
~ 610 pages relues
2 modèles génériques
3 modèles spécifiques
(CER : 3 à 10 %
selon les corpus)
Écriture
ronde
Écriture
carrée
Écriture
pointue
Écriture
penchée
Écriture
carrée-ronde
Écriture aplatie
Modèle spécifique 1
Modèle spécifique 2
Modèle spécifique 5
Etc.
Ecriture 2
Ecriture 1
Ecriture 3
Ecriture 4
Ecriture 3
Ecriture 5
Ecriture 3
Ecriture 6
Etc.
Modèle spécifique 6
Modèle spécifique 4
Modèle spécifique 3
MODELE GENERIQUE
Echantillonnage Affinage
Aujourd’hui
Plusieurs centaines de pages de vérité terrain (segmentation
et transcription).
Des modèles d’HTR réutilisables.
Nécessité d’affiner des modèles d’HTR,
de segmentation,
de reconnaissance des entités nommées,
de traitement automatique des langues.
> Pas de passage à l’échelle sans infrastructures dédiées
ni sans logistique participative.
Remerciements
Bertrand Sajus, Nicolas Orsini (MIC-DIN)
Laurent Romary, Benoît Sagot (Inria-AlMANAch)
Daniel Stökl, Peter Stokes, Ben Kiessling, Robin Tissot, Marc Bui
(Scripta-PSL)
TGIR Huma-Num
Inria-AlMANAch
Lionel Tadjou, Yves Tadjo-Tapianki, informaticiens
Marie-Laurence Bonhomme, Lucas Terriel, Hugo Scheithauer,
stagiaires du master TNAH de l’ENC
Alix Chagué, ingénieure chef de projet de 2019 à 2021
Archives nationales
Gaetano Piraino et Frédéric Zamarreno (DINUC)
Toute l’équipe projet du DMC et nos étudiants stagiaires.

Contenu connexe

Plus de Aurélia Rostaing

L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

Plus de Aurélia Rostaing (8)

L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).

  • 1. Cible de Lectaurep : ~ 3000 répertoires de notaires (~ 1,8 M pages)
  • 2. Cible de Lectaurep : des milliers d’écritures notariales
  • 3. Echantillonnage : 150/200 mains ~ 22000 pages (RE), 20000 pages (CM-SD), 700 pages (Bronod) ~ 2000 p. transcrites (qq. dizaines de mains) ~ 610 pages relues 2 modèles génériques 3 modèles spécifiques (CER : 3 à 10 % selon les corpus)
  • 5. Modèle spécifique 1 Modèle spécifique 2 Modèle spécifique 5 Etc. Ecriture 2 Ecriture 1 Ecriture 3 Ecriture 4 Ecriture 3 Ecriture 5 Ecriture 3 Ecriture 6 Etc. Modèle spécifique 6 Modèle spécifique 4 Modèle spécifique 3 MODELE GENERIQUE Echantillonnage Affinage
  • 6. Aujourd’hui Plusieurs centaines de pages de vérité terrain (segmentation et transcription). Des modèles d’HTR réutilisables. Nécessité d’affiner des modèles d’HTR, de segmentation, de reconnaissance des entités nommées, de traitement automatique des langues. > Pas de passage à l’échelle sans infrastructures dédiées ni sans logistique participative.
  • 7. Remerciements Bertrand Sajus, Nicolas Orsini (MIC-DIN) Laurent Romary, Benoît Sagot (Inria-AlMANAch) Daniel Stökl, Peter Stokes, Ben Kiessling, Robin Tissot, Marc Bui (Scripta-PSL) TGIR Huma-Num Inria-AlMANAch Lionel Tadjou, Yves Tadjo-Tapianki, informaticiens Marie-Laurence Bonhomme, Lucas Terriel, Hugo Scheithauer, stagiaires du master TNAH de l’ENC Alix Chagué, ingénieure chef de projet de 2019 à 2021 Archives nationales Gaetano Piraino et Frédéric Zamarreno (DINUC) Toute l’équipe projet du DMC et nos étudiants stagiaires.