LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.

•

0 j'aime•93 vues

Présentation du projet LectAuRep des Archives nationales au datadrink du labIA d'Etalab, 1er juillet 2021 (+ lien vers la captation).

Données & analyses

LectAuRep
(Lecture automatique de répertoires)
La reconnaissance automatique d’écriture
appliquée aux répertoires des notaires des Archives nationales
Aurélia Rostaing
aurelia.rostaing@culture.gouv.fr
Datadrink labIA
1er
juillet 2021
Lien vers la captation (1’18’’ à 22’ 40’’- démo : 8’ 46’’ à 16’ 53’’)

Un projet de service aux usagers
> lecture, recherche, fouille de texte dans la masse
des images d’archives transformées en données par
l’IA (réseaux de neurones récurrents - LSTM)

Un « Marmiton » au service d’un réseau
administratif du patrimoine écrit
> mutualisation de données, modèles et méthodes
documentés, produits avec un logiciel libre
(Kraken/eScriptorium – projet Scripta-PSL)
Convention-cadre Culture – Inria (DIN/SNUM)

Diversité du corpus
1803-1944
122 études de notaire
1 ml. par étude
2000 registres
préimprimés
Des milliers
d’écritures
Des informations visuellement structurées

Près d’un demi-siècle de campagnes de reprographie analogique et numérique

Segmenter,
transcrire,
annoter,
(pré)corriger,
pour
modéliser,
automatiser,
optimiser,
partager

Transformation des images numériques en données

Quantifier et critiquer la performance
(taux d’erreur par caractère / mot - corpus ; clusters d’écritures)

Passer à l’échelle
But : minimiser la production de données d’entraînement
pour une nouvelle main (fond de sauce)
* Golden set : 700 pages simples transcrites
(10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études)
* Random set : 600 pages simples transcrites (une centaine de
mains)
* Enregistrements de contrats de mariage, séparations, divorces :
144 doubles pages (une dizaine de mains)
* Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER
< 5 %)

Principes suivis
Tracer l’obtention des modèles
Documenter données d’entraînement et corpus
Archiver les données vérité terrain (plan de
gestion des données et modèles)

Besoins émergents
Cartographie des solutions disponibles (cf.
guide Etalab sur la pseudonymisation des
documents)
> cf. investigation par le Lab IA d’un outil
mutualisé d’OCR + extraction d’informations
des documents administratifs

Besoins émergents
Cartographie des projets, corpus,
infrastructures, algorithmes, modèles et jeux
de données (plans de gestion)
Bancs d’essai (interopérabilité des modèles et
des données)

http://traces6.paris.inria.fr/document/786/part/63596/edit/

Ressources clés sur LectAuRep, eScripta et l’HTR
https://lectaurep.hypotheses.org
https://gitlab.inria.fr/almanach/lectaurep
https://escripta.hypotheses.org/
https://gitlab.com/scripta/escriptorium
https://readcoop.eu/transkribus
https://teklia.com/
> Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour
les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation,
Viméo, 30'57", 25 juin 2021)
Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial
Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris,
BnF https://easychair.org/cfp/FantasticFutures21
> Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes
infrastructures seront présentés.

Recommandé

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing

Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing

L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing

Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFEquipex Biblissima

Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES

Actualités et perspectives de IIIFEquipex Biblissima

Persee Projet Athar_Indexation multilingue des monuments du CairePersée

Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima

Recommandé

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing

Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing

L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing

Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFEquipex Biblissima

Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES

Actualités et perspectives de IIIFEquipex Biblissima

Persee Projet Athar_Indexation multilingue des monuments du CairePersée

Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima

Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...kmichel69

Boussole Nanotec Hv2L'Atelier de Cartographie

formation URFIST Rennes 2009L'Atelier de Cartographie

Webatlas à l'inauguration du médialab Sciences PomedialabSciencesPo

Adbs2012 presentationFleury Christine

Calames - presentation à l'ecole des chartesY. Nicolas

Archives En LigneValérian Van Impe

Atelier documentaire du chercheur à l'INRIAADBSAquidoc

Abes Adbs2411Fleury Christine

#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...AssociationAF

CemagrefFrançois Scharffe

Journees ahp-20210119-webPierre Couchet

Databases for BioinformaticsKarim Mezhoud

Adbs2012presentation 120527125034-phpapp02ABES

JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...ABES

3 focus catalogues-et_bibliothequesnumeriquespatrimonialesABES

IIIF et BiblissimaEquipex Biblissima

Modern DevOps - kill the bottleneck (part 2/2)Loic Ortola

Journées ABES 2014 - Posters numériquesABES

L’indexation des éditions de sources et la conception de base(s) prosopograph...Equipex Biblissima

Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing

La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing

Contenu connexe

Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.

Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...kmichel69

Boussole Nanotec Hv2L'Atelier de Cartographie

formation URFIST Rennes 2009L'Atelier de Cartographie

Webatlas à l'inauguration du médialab Sciences PomedialabSciencesPo

Adbs2012 presentationFleury Christine

Calames - presentation à l'ecole des chartesY. Nicolas

Archives En LigneValérian Van Impe

Atelier documentaire du chercheur à l'INRIAADBSAquidoc

Abes Adbs2411Fleury Christine

#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...AssociationAF

CemagrefFrançois Scharffe

Journees ahp-20210119-webPierre Couchet

Databases for BioinformaticsKarim Mezhoud

Adbs2012presentation 120527125034-phpapp02ABES

JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...ABES

3 focus catalogues-et_bibliothequesnumeriquespatrimonialesABES

IIIF et BiblissimaEquipex Biblissima

Modern DevOps - kill the bottleneck (part 2/2)Loic Ortola

Journées ABES 2014 - Posters numériquesABES

L’indexation des éditions de sources et la conception de base(s) prosopograph...Equipex Biblissima

Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales. (20)

Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...

Boussole Nanotec Hv2

formation URFIST Rennes 2009

Webatlas à l'inauguration du médialab Sciences Po

Adbs2012 presentation

Calames - presentation à l'ecole des chartes

Archives En Ligne

Atelier documentaire du chercheur à l'INRIA

Abes Adbs2411

#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...

Cemagref

Journees ahp-20210119-web

Databases for Bioinformatics

Adbs2012presentation 120527125034-phpapp02

JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...

3 focus catalogues-et_bibliothequesnumeriquespatrimoniales

IIIF et Biblissima

Modern DevOps - kill the bottleneck (part 2/2)

Journées ABES 2014 - Posters numériques

L’indexation des éditions de sources et la conception de base(s) prosopograph...

Plus de Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing

La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing

Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing

Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing

LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing

Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing

Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing

Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing

Les archives notariales aux Archives nationalesAurélia Rostaing

Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing

Les Francini côté jardin (2014).Aurélia Rostaing

Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing

Plus de Aurélia Rostaing (13)

Les Francine, une dynastie d'"ingénieurs"... fontainiers

La recherche dans les archives notariales des Archives nationales. Présentati...

Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf

Les grottes du jardin de Rueil du XVIIe siècle à nos jours

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...

LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...

Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...

Les jardins de Fontainebleau sous Henri IV (2010)

Méthodologie de recherche dans les archives notariales des Archives nationales

Les archives notariales aux Archives nationales

Réalité topographique des plans généraux de Paris de l’époque moderne : quels...

Les Francini côté jardin (2014).

Autour des jeux sérieux (serious games). La terminologie française des jeux v...

LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.

1. LectAuRep (Lecture automatique de répertoires) La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales Aurélia Rostaing aurelia.rostaing@culture.gouv.fr Datadrink labIA 1er juillet 2021 Lien vers la captation (1’18’’ à 22’ 40’’- démo : 8’ 46’’ à 16’ 53’’)

2. Un projet de service aux usagers > lecture, recherche, fouille de texte dans la masse des images d’archives transformées en données par l’IA (réseaux de neurones récurrents - LSTM)

3. Un « Marmiton » au service d’un réseau administratif du patrimoine écrit > mutualisation de données, modèles et méthodes documentés, produits avec un logiciel libre (Kraken/eScriptorium – projet Scripta-PSL) Convention-cadre Culture – Inria (DIN/SNUM)

4. Diversité du corpus 1803-1944 122 études de notaire 1 ml. par étude 2000 registres préimprimés Des milliers d’écritures Des informations visuellement structurées

5. Près d’un demi-siècle de campagnes de reprographie analogique et numérique

6. Segmenter, transcrire, annoter, (pré)corriger, pour modéliser, automatiser, optimiser, partager

7. Transformation des images numériques en données

8. Quantifier et critiquer la performance (taux d’erreur par caractère / mot - corpus ; clusters d’écritures)

9. Passer à l’échelle But : minimiser la production de données d’entraînement pour une nouvelle main (fond de sauce) * Golden set : 700 pages simples transcrites (10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études) * Random set : 600 pages simples transcrites (une centaine de mains) * Enregistrements de contrats de mariage, séparations, divorces : 144 doubles pages (une dizaine de mains) * Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER < 5 %)

10.

11. Principes suivis Tracer l’obtention des modèles Documenter données d’entraînement et corpus Archiver les données vérité terrain (plan de gestion des données et modèles)

12. Besoins émergents Cartographie des solutions disponibles (cf. guide Etalab sur la pseudonymisation des documents) > cf. investigation par le Lab IA d’un outil mutualisé d’OCR + extraction d’informations des documents administratifs

13. Besoins émergents Cartographie des projets, corpus, infrastructures, algorithmes, modèles et jeux de données (plans de gestion) Bancs d’essai (interopérabilité des modèles et des données)

14. Démo

15. http://traces6.paris.inria.fr/document/786/part/63596/edit/

16. Ressources clés sur LectAuRep, eScripta et l’HTR https://lectaurep.hypotheses.org https://gitlab.inria.fr/almanach/lectaurep https://escripta.hypotheses.org/ https://gitlab.com/scripta/escriptorium https://readcoop.eu/transkribus https://teklia.com/ > Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation, Viméo, 30'57", 25 juin 2021) Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris, BnF https://easychair.org/cfp/FantasticFutures21 > Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes infrastructures seront présentés.