SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
LectAuRep
(Lecture automatique de répertoires)
La reconnaissance automatique d’écriture
appliquée aux répertoires des notaires des Archives nationales
Aurélia Rostaing
aurelia.rostaing@culture.gouv.fr
Datadrink labIA
1er
juillet 2021
Lien vers la captation (1’18’’ à 22’ 40’’- démo : 8’ 46’’ à 16’ 53’’)
Un projet de service aux usagers
> lecture, recherche, fouille de texte dans la masse
des images d’archives transformées en données par
l’IA (réseaux de neurones récurrents - LSTM)
Un « Marmiton » au service d’un réseau
administratif du patrimoine écrit
> mutualisation de données, modèles et méthodes
documentés, produits avec un logiciel libre
(Kraken/eScriptorium – projet Scripta-PSL)
Convention-cadre Culture – Inria (DIN/SNUM)
Diversité du corpus
1803-1944
122 études de notaire
1 ml. par étude
2000 registres
préimprimés
Des milliers
d’écritures
Des informations visuellement structurées
Près d’un demi-siècle de campagnes de reprographie analogique et numérique
Segmenter,
transcrire,
annoter,
(pré)corriger,
pour
modéliser,
automatiser,
optimiser,
partager
Transformation des images numériques en données
Quantifier et critiquer la performance 
(taux d’erreur par caractère / mot - corpus ; clusters d’écritures)
Passer à l’échelle
But : minimiser la production de données d’entraînement
pour une nouvelle main (fond de sauce)
* Golden set : 700 pages simples transcrites
(10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études)
* Random set : 600 pages simples transcrites (une centaine de
mains)
* Enregistrements de contrats de mariage, séparations, divorces :
144 doubles pages (une dizaine de mains)
* Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER
< 5 %)
Principes suivis
Tracer l’obtention des modèles
Documenter données d’entraînement et corpus
Archiver les données vérité terrain (plan de
gestion des données et modèles)
Besoins émergents
Cartographie des solutions disponibles (cf.
guide Etalab sur la pseudonymisation des
documents)
> cf. investigation par le Lab IA d’un outil
mutualisé d’OCR + extraction d’informations
des documents administratifs
Besoins émergents
Cartographie des projets, corpus,
infrastructures, algorithmes, modèles et jeux
de données (plans de gestion)
Bancs d’essai (interopérabilité des modèles et
des données)
Démo
http://traces6.paris.inria.fr/document/786/part/63596/edit/
Ressources clés sur LectAuRep, eScripta et l’HTR
https://lectaurep.hypotheses.org
https://gitlab.inria.fr/almanach/lectaurep
https://escripta.hypotheses.org/
https://gitlab.com/scripta/escriptorium
https://readcoop.eu/transkribus
https://teklia.com/
> Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour
les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation,
Viméo, 30'57", 25 juin 2021)
Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial
Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris,
BnF https://easychair.org/cfp/FantasticFutures21
> Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes
infrastructures seront présentés.

Contenu connexe

Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.

Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...kmichel69
 
Webatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences PoWebatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences PomedialabSciencesPo
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesY. Nicolas
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...AssociationAF
 
Journees ahp-20210119-web
Journees ahp-20210119-webJournees ahp-20210119-web
Journees ahp-20210119-webPierre Couchet
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for BioinformaticsKarim Mezhoud
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...ABES
 
3 focus catalogues-et_bibliothequesnumeriquespatrimoniales
3 focus catalogues-et_bibliothequesnumeriquespatrimoniales3 focus catalogues-et_bibliothequesnumeriquespatrimoniales
3 focus catalogues-et_bibliothequesnumeriquespatrimonialesABES
 
Modern DevOps - kill the bottleneck (part 2/2)
Modern DevOps - kill the bottleneck (part 2/2)Modern DevOps - kill the bottleneck (part 2/2)
Modern DevOps - kill the bottleneck (part 2/2)Loic Ortola
 
Journées ABES 2014 - Posters numériques
Journées ABES 2014 - Posters numériquesJournées ABES 2014 - Posters numériques
Journées ABES 2014 - Posters numériquesABES
 
L’indexation des éditions de sources et la conception de base(s) prosopograph...
L’indexation des éditions de sources et la conception de base(s) prosopograph...L’indexation des éditions de sources et la conception de base(s) prosopograph...
L’indexation des éditions de sources et la conception de base(s) prosopograph...Equipex Biblissima
 

Similaire à LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales. (20)

Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
 
Boussole Nanotec Hv2
Boussole Nanotec Hv2Boussole Nanotec Hv2
Boussole Nanotec Hv2
 
formation URFIST Rennes 2009
formation URFIST Rennes 2009formation URFIST Rennes 2009
formation URFIST Rennes 2009
 
Webatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences PoWebatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences Po
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartes
 
Archives En Ligne
Archives En LigneArchives En Ligne
Archives En Ligne
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 
Abes Adbs2411
Abes Adbs2411Abes Adbs2411
Abes Adbs2411
 
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manu...
 
Cemagref
CemagrefCemagref
Cemagref
 
Journees ahp-20210119-web
Journees ahp-20210119-webJournees ahp-20210119-web
Journees ahp-20210119-web
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
 
3 focus catalogues-et_bibliothequesnumeriquespatrimoniales
3 focus catalogues-et_bibliothequesnumeriquespatrimoniales3 focus catalogues-et_bibliothequesnumeriquespatrimoniales
3 focus catalogues-et_bibliothequesnumeriquespatrimoniales
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Modern DevOps - kill the bottleneck (part 2/2)
Modern DevOps - kill the bottleneck (part 2/2)Modern DevOps - kill the bottleneck (part 2/2)
Modern DevOps - kill the bottleneck (part 2/2)
 
Journées ABES 2014 - Posters numériques
Journées ABES 2014 - Posters numériquesJournées ABES 2014 - Posters numériques
Journées ABES 2014 - Posters numériques
 
L’indexation des éditions de sources et la conception de base(s) prosopograph...
L’indexation des éditions de sources et la conception de base(s) prosopograph...L’indexation des éditions de sources et la conception de base(s) prosopograph...
L’indexation des éditions de sources et la conception de base(s) prosopograph...
 

Plus de Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

Plus de Aurélia Rostaing (13)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales.

  • 1. LectAuRep (Lecture automatique de répertoires) La reconnaissance automatique d’écriture appliquée aux répertoires des notaires des Archives nationales Aurélia Rostaing aurelia.rostaing@culture.gouv.fr Datadrink labIA 1er juillet 2021 Lien vers la captation (1’18’’ à 22’ 40’’- démo : 8’ 46’’ à 16’ 53’’)
  • 2. Un projet de service aux usagers > lecture, recherche, fouille de texte dans la masse des images d’archives transformées en données par l’IA (réseaux de neurones récurrents - LSTM)
  • 3. Un « Marmiton » au service d’un réseau administratif du patrimoine écrit > mutualisation de données, modèles et méthodes documentés, produits avec un logiciel libre (Kraken/eScriptorium – projet Scripta-PSL) Convention-cadre Culture – Inria (DIN/SNUM)
  • 4. Diversité du corpus 1803-1944 122 études de notaire 1 ml. par étude 2000 registres préimprimés Des milliers d’écritures Des informations visuellement structurées
  • 5. Près d’un demi-siècle de campagnes de reprographie analogique et numérique
  • 7. Transformation des images numériques en données
  • 8. Quantifier et critiquer la performance  (taux d’erreur par caractère / mot - corpus ; clusters d’écritures)
  • 9. Passer à l’échelle But : minimiser la production de données d’entraînement pour une nouvelle main (fond de sauce) * Golden set : 700 pages simples transcrites (10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études) * Random set : 600 pages simples transcrites (une centaine de mains) * Enregistrements de contrats de mariage, séparations, divorces : 144 doubles pages (une dizaine de mains) * Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER < 5 %)
  • 10.
  • 11. Principes suivis Tracer l’obtention des modèles Documenter données d’entraînement et corpus Archiver les données vérité terrain (plan de gestion des données et modèles)
  • 12. Besoins émergents Cartographie des solutions disponibles (cf. guide Etalab sur la pseudonymisation des documents) > cf. investigation par le Lab IA d’un outil mutualisé d’OCR + extraction d’informations des documents administratifs
  • 13. Besoins émergents Cartographie des projets, corpus, infrastructures, algorithmes, modèles et jeux de données (plans de gestion) Bancs d’essai (interopérabilité des modèles et des données)
  • 14. Démo
  • 16. Ressources clés sur LectAuRep, eScripta et l’HTR https://lectaurep.hypotheses.org https://gitlab.inria.fr/almanach/lectaurep https://escripta.hypotheses.org/ https://gitlab.com/scripta/escriptorium https://readcoop.eu/transkribus https://teklia.com/ > Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation, Viméo, 30'57", 25 juin 2021) Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris, BnF https://easychair.org/cfp/FantasticFutures21 > Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes infrastructures seront présentés.