LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
Contenu connexe
Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.
L’indexation des éditions de sources et la conception de base(s) prosopograph...Equipex Biblissima
Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales. (20)
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.
1. LectAuRep
(Lecture automatique de répertoires)
La reconnaissance automatique d’écriture
appliquée aux répertoires des notaires des Archives nationales
Aurélia Rostaing
aurelia.rostaing@culture.gouv.fr
Datadrink labIA
1er
juillet 2021
Lien vers la captation (1’18’’ à 22’ 40’’- démo : 8’ 46’’ à 16’ 53’’)
2. Un projet de service aux usagers
> lecture, recherche, fouille de texte dans la masse
des images d’archives transformées en données par
l’IA (réseaux de neurones récurrents - LSTM)
3. Un « Marmiton » au service d’un réseau
administratif du patrimoine écrit
> mutualisation de données, modèles et méthodes
documentés, produits avec un logiciel libre
(Kraken/eScriptorium – projet Scripta-PSL)
Convention-cadre Culture – Inria (DIN/SNUM)
4. Diversité du corpus
1803-1944
122 études de notaire
1 ml. par étude
2000 registres
préimprimés
Des milliers
d’écritures
Des informations visuellement structurées
8. Quantifier et critiquer la performance
(taux d’erreur par caractère / mot - corpus ; clusters d’écritures)
9. Passer à l’échelle
But : minimiser la production de données d’entraînement
pour une nouvelle main (fond de sauce)
* Golden set : 700 pages simples transcrites
(10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études)
* Random set : 600 pages simples transcrites (une centaine de
mains)
* Enregistrements de contrats de mariage, séparations, divorces :
144 doubles pages (une dizaine de mains)
* Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER
< 5 %)
10.
11. Principes suivis
Tracer l’obtention des modèles
Documenter données d’entraînement et corpus
Archiver les données vérité terrain (plan de
gestion des données et modèles)
12. Besoins émergents
Cartographie des solutions disponibles (cf.
guide Etalab sur la pseudonymisation des
documents)
> cf. investigation par le Lab IA d’un outil
mutualisé d’OCR + extraction d’informations
des documents administratifs
13. Besoins émergents
Cartographie des projets, corpus,
infrastructures, algorithmes, modèles et jeux
de données (plans de gestion)
Bancs d’essai (interopérabilité des modèles et
des données)
16. Ressources clés sur LectAuRep, eScripta et l’HTR
https://lectaurep.hypotheses.org
https://gitlab.inria.fr/almanach/lectaurep
https://escripta.hypotheses.org/
https://gitlab.com/scripta/escriptorium
https://readcoop.eu/transkribus
https://teklia.com/
> Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour
les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation,
Viméo, 30'57", 25 juin 2021)
Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial
Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris,
BnF https://easychair.org/cfp/FantasticFutures21
> Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes
infrastructures seront présentés.