SlideShare une entreprise Scribd logo
1  sur  3
Télécharger pour lire hors ligne
Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et
évaluation de ses performances
Futurs fantastiques - 1er
décembre 2021
Présentation du projet Lectaurep
Aurélia Rostaing
Cheffe de projet métier
aurelia.rostaing@culture.gouv.fr
(diapo 1)
Le projet Lectaurep consiste à appliquer les technologies de reconnaissance de caractères aux
pages manuscrites et partiellement imprimées des répertoires de notaires de Paris conservés aux
Archives nationales.
Un répertoire est un registre où les notaires consignent par ordre chronologique les actes notariés
qu'ils ont établis.
Les répertoires des Archives nationales, qui vont aujourd’hui du dernier quart du XVe siècle aux
années 1940, sont systématiquement numérisés et accessibles en ligne. Ils servent de clé d'accès
aux actes notariés qu'ils résument, et qui sont aujourd’hui conservés – pour les minutes notariales
– au département du Minutier central des notaires de Paris.
(diapo 2)
Les répertoires contiennent, par nature, une masse de données nominatives intéressant la vie, la
mort et les biens de personnes physiques ou morales. Ils constituent donc des corpus de recherche
en soi, où il est possible d'isoler des sous-corpus chronologiques, mais aussi géographiques,
topographiques ou prosopographiques, intéressant l'histoire économique et sociale.
Le but du Minutier est d’offrir à ses usagers un service de lecture augmentée au sein de ces
répertoires. Nous souhaitons, avec le projet Lectaurep, faciliter et massifier l'accès aux contenus de
ces documents, pour permettre à nos lecteurs
de gagner du temps dans l'identification des répertoires de notaires utiles à leurs
recherches,
de gagner en efficacité dans la constitution de corpus de recherche aussi cohérents,
complets et maîtrisés que possible,
et de manipuler ces corpus en filtrant leurs données.
Notre objectif est aussi de partager le résultat de nos travaux et nos retours d’expérience à des fins
d’enrichissement mutuel et collectif, mais aussi pour favoriser l'interopérabilité des données
produites en faisant converger nos pratiques autant que faire se peut, autour de communautés
réunissant archives, bibliothèques, et musées, chercheurs et généalogistes, prestataires de
solutions d'HTR ou de logiciels de gestion d’archives ou de bibliothèques.
C'est entre autres pour cette raison qu'en 2019, nous avons choisi d'utiliser le logiciel libre Kraken
et son interface eScriptorium développés par PSL dans le cadre du projet eScripta.
Notre corpus cible est considérable. Il est aussi très diversifié, car nous avons fait le choix de
prendre en considération un patrimoine numérique de plus de 15 ans, résultant aussi bien d'une
numérisation rétrospective en NB de microfilms, que d'une numérisation directe en couleurs
d'après originaux, suivant des cahiers des charges de prise de vue et de qualité d'image qui ont
évolué dans le temps. Mais surtout, nous avons potentiellement affaire à des milliers d’écritures.
(diapo 3)
Pour aborder le corpus des XIXe et XXe siècles, objet du projet, nous avons effectué un
échantillonnage de ce qui était disponible, et nous nous sommes concentrées sur cet échantillon,
dont nous n’avons pu traiter qu’une partie. Nous avons également ouvert deux chantiers plus
homogènes, avec des registres d’enregistrement de contrats de mariage, séparations et divorces
de commerçants, et un notaire du XVIIIe siècle, Me Bronod.
Sur l’ensemble de ces lots, représentant 150 à 200 mains, environ 2000 pages ont été transcrites
(soit quelques dizaines de mains), dont moins d’un tiers a été relu, ce qui n’a pas empêché
d’élaborer des modèles d’HTR satisfaisants, qu’il a bien sûr été nécessaire d’affiner sur la base
d’une vérité terrain de qualité afin d’obtenir des taux d’erreur par caractère inférieurs à 10, voire à
5 %.
(diapo 4)
Sur un plan méthodologique, nous avons d’abord envisagé de créer des modèles d’HTR
spécifiques, propres à une écriture donnée, en pensant regrouper ces modèles par grandes
familles d’écritures affiliées entre elles à la manière d’arbres généalogiques ou de stemmas. Mais
nous nous sommes heurtées à une difficulté matérielle et diplomatique, à savoir l’impossibilité de
prédire de manière systématique le taux de rotation de différentes écritures au sein d’un registre
donné, ce taux pouvant varier selon les époques et selon les pratiques notariales.
(diapo 5)
Nous avons donc opté pour la constitution de modèles génériques « taille unique », à adapter
éventuellement à des écritures spécifiques, tout en permettant des recherches floues. Ces
modèles sont d’ores et déjà en mesure de reconnaître des mots entiers dans des corpus étrangers
à Lectaurep, avec, bien sûr, beaucoup d’erreurs aussi.
(diapo 6)
Pour résumer l’état d’avancement du projet, les technologies d’HTR ont fait leurs preuves sur un
corpus contemporain d’écritures administratives, mais leur déploiement à l’échelle du corpus cible
demande aujourd’hui des infrastructures dédiées et une logistique participative impliquant
l’animation de bénévoles. Il faut par ailleurs envisager d’affiner non seulement des modèles d’HTR,
mais aussi des modèles de segmentation, dont aucune métrique vraiment précise ne permet
d’évaluer la qualité, à la différence de l’HTR.
Enfin, une manipulation visuelle des données doit pouvoir s’appuyer sur la reconnaissance des
entités nommées, qui repose ici sur des données d'HTR brutes. Ces données peuvent être
précorrigées avec des outils de traitement automatique des langues, pour lesquels le projet
Lectaurep met à disposition un sous-corpus linguistique du langage naturel, qui est le langage
administratif écrit, parfois fortement abrégé et télégraphique des notaires parisiens
contemporains.
(diapo 7)
Le projet Lectaurep, qui s'achève ce mois-ci, s'est déroulé de 2018 à 2021 grâce à la convention
cadre Culture - Inria, et nous remercions chaleureusement l'ex-DIN (SNUM) du MIC, en particulier
Bertrand Sajus et Nicolas Orsini, pour leur confiance, Laurent Romary et Benoît Sagot, de l'équipe-
projet AlMANAch d'Inria, pour avoir retenu notre proposition, ainsi que les artisans de Kraken-
eScriptorium à PSL, Daniel Stökl, Peter Stokes, Ben Kiessling, Robin Tissot, et Marc Bui.
Nos remerciements vont également à la TGIR Huma-Num pour la mise à disposition d’un espace
ShareDocs, si précieux pendant les phases de confinement et de télétravail.
Nous remercions, enfin, tout particulièrement Lionel Tadjou et Yves Tadjo-Tapianki à Inria, Marie-
Laurence Bonhomme, Lucas Terriel, Hugo Scheithauer, stagiaires du master TNAH de l’ENC, Alix
Chagué, cheffe de projet côté R&D de 2019 à 2021 à Inria, Gaetano Piraino et Frédéric Zamarreno
à la DINUC, et, par-dessus tout, nous remercions toute l’équipe projet au Minutier, sans oublier
nos étudiants stagiaires, pour leur intérêt et leur participation active et collaborative au projet.
Je laisse à présent la parole à Hugo.

Contenu connexe

Similaire à Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).

Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériquesOpenEdition
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Equipex Biblissima
 
Numerique bibliotheques aioutz_08-04-10
Numerique bibliotheques aioutz_08-04-10Numerique bibliotheques aioutz_08-04-10
Numerique bibliotheques aioutz_08-04-10Renaud AIOUTZ
 
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...AssociationAF
 
Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Lesticetlart Invisu
 
JE 100111 E Bermès T Pardé
JE 100111 E Bermès T PardéJE 100111 E Bermès T Pardé
JE 100111 E Bermès T PardéBibliolab
 
Collections Numeriques et Bibliotheques 23680
Collections Numeriques et Bibliotheques 23680Collections Numeriques et Bibliotheques 23680
Collections Numeriques et Bibliotheques 23680ADDNB
 
collections numeriques et bibliotheques
collections numeriques et bibliothequescollections numeriques et bibliotheques
collections numeriques et bibliothequesKotkot
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésEquipex Biblissima
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...kmichel69
 
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebTEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebMokhtar Ben Henda
 
Réflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneRéflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneOpenEdition
 
introduction : transition dans le contexte numerique
introduction :  transition dans le contexte numeriqueintroduction :  transition dans le contexte numerique
introduction : transition dans le contexte numeriqueABES
 
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...ABES
 

Similaire à Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances). (20)

Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériques
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
 
Numerique bibliotheques aioutz_08-04-10
Numerique bibliotheques aioutz_08-04-10Numerique bibliotheques aioutz_08-04-10
Numerique bibliotheques aioutz_08-04-10
 
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
Françoise Lemaire et Rosine Lheureux_Explorer les nouveaux territoires de la ...
 
Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013Plaquette de présentation InVisu 2013
Plaquette de présentation InVisu 2013
 
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIREARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
 
JE 100111 E Bermès T Pardé
JE 100111 E Bermès T PardéJE 100111 E Bermès T Pardé
JE 100111 E Bermès T Pardé
 
Collections Numeriques et Bibliotheques 23680
Collections Numeriques et Bibliotheques 23680Collections Numeriques et Bibliotheques 23680
Collections Numeriques et Bibliotheques 23680
 
collections numeriques et bibliotheques
collections numeriques et bibliothequescollections numeriques et bibliotheques
collections numeriques et bibliotheques
 
Programme Congrès AIFBD 2023
Programme Congrès AIFBD 2023Programme Congrès AIFBD 2023
Programme Congrès AIFBD 2023
 
TEI & Humanités digitales
TEI & Humanités digitalesTEI & Humanités digitales
TEI & Humanités digitales
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Les protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialitésLes protocoles IIIF : présentation des potentialités
Les protocoles IIIF : présentation des potentialités
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
 
Lire Ecouter En Ligne Bib
Lire Ecouter En Ligne BibLire Ecouter En Ligne Bib
Lire Ecouter En Ligne Bib
 
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghrebTEI et Humanités Digitales : projet HumanitéDigitMaghreb
TEI et Humanités Digitales : projet HumanitéDigitMaghreb
 
Réflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneRéflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligne
 
introduction : transition dans le contexte numerique
introduction :  transition dans le contexte numeriqueintroduction :  transition dans le contexte numerique
introduction : transition dans le contexte numerique
 
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
 

Plus de Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

Plus de Aurélia Rostaing (13)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).

  • 1. Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances Futurs fantastiques - 1er décembre 2021 Présentation du projet Lectaurep Aurélia Rostaing Cheffe de projet métier aurelia.rostaing@culture.gouv.fr (diapo 1) Le projet Lectaurep consiste à appliquer les technologies de reconnaissance de caractères aux pages manuscrites et partiellement imprimées des répertoires de notaires de Paris conservés aux Archives nationales. Un répertoire est un registre où les notaires consignent par ordre chronologique les actes notariés qu'ils ont établis. Les répertoires des Archives nationales, qui vont aujourd’hui du dernier quart du XVe siècle aux années 1940, sont systématiquement numérisés et accessibles en ligne. Ils servent de clé d'accès aux actes notariés qu'ils résument, et qui sont aujourd’hui conservés – pour les minutes notariales – au département du Minutier central des notaires de Paris. (diapo 2) Les répertoires contiennent, par nature, une masse de données nominatives intéressant la vie, la mort et les biens de personnes physiques ou morales. Ils constituent donc des corpus de recherche en soi, où il est possible d'isoler des sous-corpus chronologiques, mais aussi géographiques, topographiques ou prosopographiques, intéressant l'histoire économique et sociale. Le but du Minutier est d’offrir à ses usagers un service de lecture augmentée au sein de ces répertoires. Nous souhaitons, avec le projet Lectaurep, faciliter et massifier l'accès aux contenus de ces documents, pour permettre à nos lecteurs de gagner du temps dans l'identification des répertoires de notaires utiles à leurs recherches, de gagner en efficacité dans la constitution de corpus de recherche aussi cohérents, complets et maîtrisés que possible, et de manipuler ces corpus en filtrant leurs données.
  • 2. Notre objectif est aussi de partager le résultat de nos travaux et nos retours d’expérience à des fins d’enrichissement mutuel et collectif, mais aussi pour favoriser l'interopérabilité des données produites en faisant converger nos pratiques autant que faire se peut, autour de communautés réunissant archives, bibliothèques, et musées, chercheurs et généalogistes, prestataires de solutions d'HTR ou de logiciels de gestion d’archives ou de bibliothèques. C'est entre autres pour cette raison qu'en 2019, nous avons choisi d'utiliser le logiciel libre Kraken et son interface eScriptorium développés par PSL dans le cadre du projet eScripta. Notre corpus cible est considérable. Il est aussi très diversifié, car nous avons fait le choix de prendre en considération un patrimoine numérique de plus de 15 ans, résultant aussi bien d'une numérisation rétrospective en NB de microfilms, que d'une numérisation directe en couleurs d'après originaux, suivant des cahiers des charges de prise de vue et de qualité d'image qui ont évolué dans le temps. Mais surtout, nous avons potentiellement affaire à des milliers d’écritures. (diapo 3) Pour aborder le corpus des XIXe et XXe siècles, objet du projet, nous avons effectué un échantillonnage de ce qui était disponible, et nous nous sommes concentrées sur cet échantillon, dont nous n’avons pu traiter qu’une partie. Nous avons également ouvert deux chantiers plus homogènes, avec des registres d’enregistrement de contrats de mariage, séparations et divorces de commerçants, et un notaire du XVIIIe siècle, Me Bronod. Sur l’ensemble de ces lots, représentant 150 à 200 mains, environ 2000 pages ont été transcrites (soit quelques dizaines de mains), dont moins d’un tiers a été relu, ce qui n’a pas empêché d’élaborer des modèles d’HTR satisfaisants, qu’il a bien sûr été nécessaire d’affiner sur la base d’une vérité terrain de qualité afin d’obtenir des taux d’erreur par caractère inférieurs à 10, voire à 5 %. (diapo 4) Sur un plan méthodologique, nous avons d’abord envisagé de créer des modèles d’HTR spécifiques, propres à une écriture donnée, en pensant regrouper ces modèles par grandes familles d’écritures affiliées entre elles à la manière d’arbres généalogiques ou de stemmas. Mais nous nous sommes heurtées à une difficulté matérielle et diplomatique, à savoir l’impossibilité de prédire de manière systématique le taux de rotation de différentes écritures au sein d’un registre donné, ce taux pouvant varier selon les époques et selon les pratiques notariales. (diapo 5) Nous avons donc opté pour la constitution de modèles génériques « taille unique », à adapter éventuellement à des écritures spécifiques, tout en permettant des recherches floues. Ces modèles sont d’ores et déjà en mesure de reconnaître des mots entiers dans des corpus étrangers à Lectaurep, avec, bien sûr, beaucoup d’erreurs aussi.
  • 3. (diapo 6) Pour résumer l’état d’avancement du projet, les technologies d’HTR ont fait leurs preuves sur un corpus contemporain d’écritures administratives, mais leur déploiement à l’échelle du corpus cible demande aujourd’hui des infrastructures dédiées et une logistique participative impliquant l’animation de bénévoles. Il faut par ailleurs envisager d’affiner non seulement des modèles d’HTR, mais aussi des modèles de segmentation, dont aucune métrique vraiment précise ne permet d’évaluer la qualité, à la différence de l’HTR. Enfin, une manipulation visuelle des données doit pouvoir s’appuyer sur la reconnaissance des entités nommées, qui repose ici sur des données d'HTR brutes. Ces données peuvent être précorrigées avec des outils de traitement automatique des langues, pour lesquels le projet Lectaurep met à disposition un sous-corpus linguistique du langage naturel, qui est le langage administratif écrit, parfois fortement abrégé et télégraphique des notaires parisiens contemporains. (diapo 7) Le projet Lectaurep, qui s'achève ce mois-ci, s'est déroulé de 2018 à 2021 grâce à la convention cadre Culture - Inria, et nous remercions chaleureusement l'ex-DIN (SNUM) du MIC, en particulier Bertrand Sajus et Nicolas Orsini, pour leur confiance, Laurent Romary et Benoît Sagot, de l'équipe- projet AlMANAch d'Inria, pour avoir retenu notre proposition, ainsi que les artisans de Kraken- eScriptorium à PSL, Daniel Stökl, Peter Stokes, Ben Kiessling, Robin Tissot, et Marc Bui. Nos remerciements vont également à la TGIR Huma-Num pour la mise à disposition d’un espace ShareDocs, si précieux pendant les phases de confinement et de télétravail. Nous remercions, enfin, tout particulièrement Lionel Tadjou et Yves Tadjo-Tapianki à Inria, Marie- Laurence Bonhomme, Lucas Terriel, Hugo Scheithauer, stagiaires du master TNAH de l’ENC, Alix Chagué, cheffe de projet côté R&D de 2019 à 2021 à Inria, Gaetano Piraino et Frédéric Zamarreno à la DINUC, et, par-dessus tout, nous remercions toute l’équipe projet au Minutier, sans oublier nos étudiants stagiaires, pour leur intérêt et leur participation active et collaborative au projet. Je laisse à présent la parole à Hugo.