SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
LECTAUREP
Lecture automatique
de répertoires de notaires
Datalab - BnF - 26/01/2021.
Alix CHAGUÉ - Inria - alix.chague@inria.fr.
Aurélia ROSTAING - Archives nationales - aurelia.rostaing@culture.gouv.fr.
LECTAUREP en quelques mots
Lecture et exploitation de registres de notaires
assistées par apprentissage machine
LECTAUREP en quelques chiffres
- Un ensemble physiquement cohérent (~ 2000 registres préimprimés, ~ 1803-1944),
échantillonné en deux jeux d’images numériques
- Ecritures, abréviations et mises en page nombreuses et variées (des milliers de mains)
- Une variété de supports numériques
Plan B : réduire et simplifier le corpus
Contrats de mariage de négociants (41 registres, 1829-1934) ; Me Bronod (9 reg.,
1719-1765) : écriture homogène et soignée, moins abrégée, plus aérée
Développements autour d’eScriptorium
Visualisation de la chaîne complète
*HTR-United est un projet de Commons pour les données d’entraînement pour l’HTR : https://htr-united.github.io/
Stratégie d’entraînement des modèles
Segmentation :
❖ Un modèle générique opérationnel (lectau1_8) à affiner pour les
cas particuliers (écritures serrées)
Transcription :
On ne peut pas entraîner un seul modèle pour l’ensemble du corpus !
❖ Un modèle générique (objectif : 20 % CER max.)
❖ Un affinage du modèle générique pour chaque nouvelle main d’
écriture ou quand aucun modèle ne fonctionne (objectif : 10 %
CER max.)
L’objectif est de réduire la quantité de données nécessaire pour
l’entraînement d’un modèle spécifique à chaque écriture.
Production des données d’entraînement
La performance du modèle dépend de la qualité des données d’entraînement :
- On ne peut pas se contenter d’une transcription / image : il faut plusieurs annotateurs
pour une même image, et une comparaison des transcriptions !
- Il est nécessaire d’établir un guide d’annotation et d’identifier les points de désaccord
des annotateurs !
- Il faut former les annotateurs aux règles d’annotation qui ont été décidées
- Il faudra former les contributeurs à ces règles d’annotation
Extrait des résultats
d’une expérimentation
permettant d’illustrer
les désaccords
insoupçonnés !
Production des données d’entraînement
(segmentation & transcription)
❖ Commencée avec le premier confinement, en interne, surtout en alternance d’autres tâches (4
agents, EPT : ~ 1,5 ; correction de la segmentation de 300 pages du golden set ; transcription de
700 pages du golden set : ~ 10/15 mains, ~ 1830/1836/1850/1901/1907, 6 notaires, 2 études) ;
❖ Poursuivie à partir du 16/09, en interne, surtout en discontinu (415 pages du random set par 5
agents, EPT 2 ; + correction de la segmentation et transcription de 254 doubles pages de registres
de contrats de mariage par 8 personnes, EPT 2 ; commencé : Bronod, années 1740, 1 agent) ;
❖ Une équipe aux compétences hétérogènes, avec de grands débutants et des Lectaurépiens plus
chevronnés : une préfiguration de la phase participative, sans les outils d’accompagnement et de
formation requis ;
❖ Des conventions qui doivent être évolutives en raison de la diversité des systèmes d’abréviations du
corpus ;
❖ Un effet d’entonnoir à la phase cruciale de contrôle, correction et validation des données de vérité
terrain (segmentation, transcription).
Exploration des transcriptions
● Un outil de recherche dans le texte intégral (exacte, floue ou par mots-clefs)
● Reconstitution des unités logiques et des informations (unité de l’acte, dates, sommes)
● Annotation des entités nommées, adresses, etc., alignement et visualisation
Objectifs et besoins de Lectaurep
❖ Minimiser les corrections manuelles (temps de correction < temps de saisie
manuelle) pour optimiser la recherche floue -> outils d’analyse et métriques
fiables
❖ CER rectifié : apprécier le taux d’erreur par caractère en le réduisant à sa plus
simple expression (0 ≠ 1 ; A (ou a, a, à, á, ä, â) ≠ B (ou b)) afin d’évaluer
l’efficacité d’une recherche floue (patronymes, métiers, mots matière...) ;
❖ CER + WER : disposer des deux valeurs pour évaluer la répartition des erreurs
(concentrée sur certaines chaînes de caractères ou diffuses ?) ;
❖ Brique participative + animation de communauté : pour produire la vérité
terrain (segmentation, transcription) nécessaire au projet ;
❖ Fonctionnalités : copier-coller des segments et des contenus, faire des
corrections en masse au vu de l’original (cf. Open Refine), indiquer les modèles
dans le fichier alto...
Premières hypothèses de Lectaurep
Segmentation
- numérisation NB d’après microfilm ~ couleur d’après originaux ? (> HTR à la demande ?)
- pas d’inconvénient à partir d’une double page plutôt que de son découpage en deux pages
HTR : ?
Recommandations pour une gestion de projet d’HTR
Calibrer le projet en amont, de A à Z, pour le maîtriser.
❖ 📖 Corpus : homogène, simple, limité (écritures, abréviations, mise en page et autres aspects
matériels) ;
❖ 🔭 Suivi de projet : campagne d’HTR ~ campagne de numérisation ? (récolement page à page,
conventions - CCH faisant l’unanimité...) ;
❖ 🖠 RH : équipe projet à TP, restreinte (?), formée et testée ;
❖ 👀 Matériel : grand écran (voire deux grands écrans), surtout avec des doubles pages ;
❖ Logiciel : utilisable en l’état, sans devoir développer des fonctionnalités supplémentaires ;
❖ ⏳ Calendrier du projet : évaluer le temps d’obtention des modèles de
segmentation/transcription/annotation sémantique, des données de vérité terrain en testant un
échantillon représentatif éventuellement “maison” (segmentation, HTR
manuels/automatiques, annotation ; temps de formation, de correction) ;
❖ 📅 Données (vérité terrain, modèles...) : plan de gestion et de documentation pendant et après
leur production ; modalités de réutilisation.
Enjeux interprofessionnels (GLAM)
❖ Mêmes problématiques, mêmes types de fonds (registres à colonne, mixtes -
manuscrit / imprimé...)
❖ Documenter, formaliser et harmoniser les pratiques (grilles projet types à
décliner ; référentiels et standards de segmentation et de transcription,
nécessaires pour offrir des données interopérables à la paléographie
computationnelle) ;
❖ Cartographier et documenter les projets et les supports d’HTR (logiciels,
serveurs, corpus, financements, RH : Biblissima+, DIM MAP Cremma...) ;
❖ Écrire un manuel de référence sur l’HTR ;
❖ Ecrire un guide Ecrire un cahier des charges d’HTR.
Merci !.

Contenu connexe

Similaire à Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021.

MongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, AnalyticsMongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB
 
Rust All Hands Winter 2011
Rust All Hands Winter 2011Rust All Hands Winter 2011
Rust All Hands Winter 2011
Patrick Walton
 
Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...
Anubhav Jain
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Jeongkyu Shin
 

Similaire à Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021. (20)

Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...
 
MongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, AnalyticsMongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, Analytics
 
OCR using Tesseract
OCR using TesseractOCR using Tesseract
OCR using Tesseract
 
OCR using Tesseract
OCR using TesseractOCR using Tesseract
OCR using Tesseract
 
Cork AI Meetup Number 3
Cork AI Meetup Number 3Cork AI Meetup Number 3
Cork AI Meetup Number 3
 
Rust All Hands Winter 2011
Rust All Hands Winter 2011Rust All Hands Winter 2011
Rust All Hands Winter 2011
 
OUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String ProcessingOUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String Processing
 
Search pitb
Search pitbSearch pitb
Search pitb
 
Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...
 
Lexical analysis - Compiler Design
Lexical analysis - Compiler DesignLexical analysis - Compiler Design
Lexical analysis - Compiler Design
 
Lecture1 introduction compilers
Lecture1 introduction compilersLecture1 introduction compilers
Lecture1 introduction compilers
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
 
Trends In Languages 2010
Trends In Languages 2010Trends In Languages 2010
Trends In Languages 2010
 
Interactive big data analytics
Interactive big data analyticsInteractive big data analytics
Interactive big data analytics
 
Bne impact iif
Bne impact iifBne impact iif
Bne impact iif
 
Caspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve RenkinCaspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve Renkin
 
Antlr Conexaojava
Antlr ConexaojavaAntlr Conexaojava
Antlr Conexaojava
 
Script of Scripts Polyglot Notebook and Workflow System
Script of ScriptsPolyglot Notebook and Workflow SystemScript of ScriptsPolyglot Notebook and Workflow System
Script of Scripts Polyglot Notebook and Workflow System
 
Inventing the future Business Programming Language
Inventing the future  Business Programming LanguageInventing the future  Business Programming Language
Inventing the future Business Programming Language
 
Everything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDBEverything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDB
 

Plus de Aurélia Rostaing

Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
Aurélia Rostaing
 

Plus de Aurélia Rostaing (15)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
 
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

Dernier

一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
pyhepag
 
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotecAbortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 
一比一原版麦考瑞大学毕业证成绩单如何办理
一比一原版麦考瑞大学毕业证成绩单如何办理一比一原版麦考瑞大学毕业证成绩单如何办理
一比一原版麦考瑞大学毕业证成绩单如何办理
cyebo
 
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
pyhepag
 
一比一原版阿德莱德大学毕业证成绩单如何办理
一比一原版阿德莱德大学毕业证成绩单如何办理一比一原版阿德莱德大学毕业证成绩单如何办理
一比一原版阿德莱德大学毕业证成绩单如何办理
pyhepag
 
一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理
cyebo
 
一比一原版西悉尼大学毕业证成绩单如何办理
一比一原版西悉尼大学毕业证成绩单如何办理一比一原版西悉尼大学毕业证成绩单如何办理
一比一原版西悉尼大学毕业证成绩单如何办理
pyhepag
 

Dernier (20)

2024 Q1 Tableau User Group Leader Quarterly Call
2024 Q1 Tableau User Group Leader Quarterly Call2024 Q1 Tableau User Group Leader Quarterly Call
2024 Q1 Tableau User Group Leader Quarterly Call
 
Data analytics courses in Nepal Presentation
Data analytics courses in Nepal PresentationData analytics courses in Nepal Presentation
Data analytics courses in Nepal Presentation
 
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
 
Generative AI for Trailblazers_ Unlock the Future of AI.pdf
Generative AI for Trailblazers_ Unlock the Future of AI.pdfGenerative AI for Trailblazers_ Unlock the Future of AI.pdf
Generative AI for Trailblazers_ Unlock the Future of AI.pdf
 
Atlantic Grupa Case Study (Mintec Data AI)
Atlantic Grupa Case Study (Mintec Data AI)Atlantic Grupa Case Study (Mintec Data AI)
Atlantic Grupa Case Study (Mintec Data AI)
 
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotecAbortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
 
一比一原版麦考瑞大学毕业证成绩单如何办理
一比一原版麦考瑞大学毕业证成绩单如何办理一比一原版麦考瑞大学毕业证成绩单如何办理
一比一原版麦考瑞大学毕业证成绩单如何办理
 
Slip-and-fall Injuries: Top Workers' Comp Claims
Slip-and-fall Injuries: Top Workers' Comp ClaimsSlip-and-fall Injuries: Top Workers' Comp Claims
Slip-and-fall Injuries: Top Workers' Comp Claims
 
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
一比一原版加利福尼亚大学尔湾分校毕业证成绩单如何办理
 
Artificial_General_Intelligence__storm_gen_article.pdf
Artificial_General_Intelligence__storm_gen_article.pdfArtificial_General_Intelligence__storm_gen_article.pdf
Artificial_General_Intelligence__storm_gen_article.pdf
 
Easy and simple project file on mp online
Easy and simple project file on mp onlineEasy and simple project file on mp online
Easy and simple project file on mp online
 
Pre-ProductionImproveddsfjgndflghtgg.pptx
Pre-ProductionImproveddsfjgndflghtgg.pptxPre-ProductionImproveddsfjgndflghtgg.pptx
Pre-ProductionImproveddsfjgndflghtgg.pptx
 
一比一原版阿德莱德大学毕业证成绩单如何办理
一比一原版阿德莱德大学毕业证成绩单如何办理一比一原版阿德莱德大学毕业证成绩单如何办理
一比一原版阿德莱德大学毕业证成绩单如何办理
 
一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理
 
2024 Q2 Orange County (CA) Tableau User Group Meeting
2024 Q2 Orange County (CA) Tableau User Group Meeting2024 Q2 Orange County (CA) Tableau User Group Meeting
2024 Q2 Orange County (CA) Tableau User Group Meeting
 
AI Imagen for data-storytelling Infographics.pdf
AI Imagen for data-storytelling Infographics.pdfAI Imagen for data-storytelling Infographics.pdf
AI Imagen for data-storytelling Infographics.pdf
 
一比一原版西悉尼大学毕业证成绩单如何办理
一比一原版西悉尼大学毕业证成绩单如何办理一比一原版西悉尼大学毕业证成绩单如何办理
一比一原版西悉尼大学毕业证成绩单如何办理
 
basics of data science with application areas.pdf
basics of data science with application areas.pdfbasics of data science with application areas.pdf
basics of data science with application areas.pdf
 
How I opened a fake bank account and didn't go to prison
How I opened a fake bank account and didn't go to prisonHow I opened a fake bank account and didn't go to prison
How I opened a fake bank account and didn't go to prison
 
Webinar One View, Multiple Systems No-Code Integration of Salesforce and ERPs
Webinar One View, Multiple Systems No-Code Integration of Salesforce and ERPsWebinar One View, Multiple Systems No-Code Integration of Salesforce and ERPs
Webinar One View, Multiple Systems No-Code Integration of Salesforce and ERPs
 

Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021.

  • 1. LECTAUREP Lecture automatique de répertoires de notaires Datalab - BnF - 26/01/2021. Alix CHAGUÉ - Inria - alix.chague@inria.fr. Aurélia ROSTAING - Archives nationales - aurelia.rostaing@culture.gouv.fr.
  • 2. LECTAUREP en quelques mots Lecture et exploitation de registres de notaires assistées par apprentissage machine
  • 3. LECTAUREP en quelques chiffres - Un ensemble physiquement cohérent (~ 2000 registres préimprimés, ~ 1803-1944), échantillonné en deux jeux d’images numériques - Ecritures, abréviations et mises en page nombreuses et variées (des milliers de mains) - Une variété de supports numériques
  • 4. Plan B : réduire et simplifier le corpus Contrats de mariage de négociants (41 registres, 1829-1934) ; Me Bronod (9 reg., 1719-1765) : écriture homogène et soignée, moins abrégée, plus aérée
  • 6. Visualisation de la chaîne complète *HTR-United est un projet de Commons pour les données d’entraînement pour l’HTR : https://htr-united.github.io/
  • 7. Stratégie d’entraînement des modèles Segmentation : ❖ Un modèle générique opérationnel (lectau1_8) à affiner pour les cas particuliers (écritures serrées) Transcription : On ne peut pas entraîner un seul modèle pour l’ensemble du corpus ! ❖ Un modèle générique (objectif : 20 % CER max.) ❖ Un affinage du modèle générique pour chaque nouvelle main d’ écriture ou quand aucun modèle ne fonctionne (objectif : 10 % CER max.) L’objectif est de réduire la quantité de données nécessaire pour l’entraînement d’un modèle spécifique à chaque écriture.
  • 8. Production des données d’entraînement La performance du modèle dépend de la qualité des données d’entraînement : - On ne peut pas se contenter d’une transcription / image : il faut plusieurs annotateurs pour une même image, et une comparaison des transcriptions ! - Il est nécessaire d’établir un guide d’annotation et d’identifier les points de désaccord des annotateurs ! - Il faut former les annotateurs aux règles d’annotation qui ont été décidées - Il faudra former les contributeurs à ces règles d’annotation Extrait des résultats d’une expérimentation permettant d’illustrer les désaccords insoupçonnés !
  • 9. Production des données d’entraînement (segmentation & transcription) ❖ Commencée avec le premier confinement, en interne, surtout en alternance d’autres tâches (4 agents, EPT : ~ 1,5 ; correction de la segmentation de 300 pages du golden set ; transcription de 700 pages du golden set : ~ 10/15 mains, ~ 1830/1836/1850/1901/1907, 6 notaires, 2 études) ; ❖ Poursuivie à partir du 16/09, en interne, surtout en discontinu (415 pages du random set par 5 agents, EPT 2 ; + correction de la segmentation et transcription de 254 doubles pages de registres de contrats de mariage par 8 personnes, EPT 2 ; commencé : Bronod, années 1740, 1 agent) ; ❖ Une équipe aux compétences hétérogènes, avec de grands débutants et des Lectaurépiens plus chevronnés : une préfiguration de la phase participative, sans les outils d’accompagnement et de formation requis ; ❖ Des conventions qui doivent être évolutives en raison de la diversité des systèmes d’abréviations du corpus ; ❖ Un effet d’entonnoir à la phase cruciale de contrôle, correction et validation des données de vérité terrain (segmentation, transcription).
  • 10. Exploration des transcriptions ● Un outil de recherche dans le texte intégral (exacte, floue ou par mots-clefs) ● Reconstitution des unités logiques et des informations (unité de l’acte, dates, sommes) ● Annotation des entités nommées, adresses, etc., alignement et visualisation
  • 11. Objectifs et besoins de Lectaurep ❖ Minimiser les corrections manuelles (temps de correction < temps de saisie manuelle) pour optimiser la recherche floue -> outils d’analyse et métriques fiables ❖ CER rectifié : apprécier le taux d’erreur par caractère en le réduisant à sa plus simple expression (0 ≠ 1 ; A (ou a, a, à, á, ä, â) ≠ B (ou b)) afin d’évaluer l’efficacité d’une recherche floue (patronymes, métiers, mots matière...) ; ❖ CER + WER : disposer des deux valeurs pour évaluer la répartition des erreurs (concentrée sur certaines chaînes de caractères ou diffuses ?) ; ❖ Brique participative + animation de communauté : pour produire la vérité terrain (segmentation, transcription) nécessaire au projet ; ❖ Fonctionnalités : copier-coller des segments et des contenus, faire des corrections en masse au vu de l’original (cf. Open Refine), indiquer les modèles dans le fichier alto...
  • 12. Premières hypothèses de Lectaurep Segmentation - numérisation NB d’après microfilm ~ couleur d’après originaux ? (> HTR à la demande ?) - pas d’inconvénient à partir d’une double page plutôt que de son découpage en deux pages HTR : ?
  • 13. Recommandations pour une gestion de projet d’HTR Calibrer le projet en amont, de A à Z, pour le maîtriser. ❖ 📖 Corpus : homogène, simple, limité (écritures, abréviations, mise en page et autres aspects matériels) ; ❖ 🔭 Suivi de projet : campagne d’HTR ~ campagne de numérisation ? (récolement page à page, conventions - CCH faisant l’unanimité...) ; ❖ 🖠 RH : équipe projet à TP, restreinte (?), formée et testée ; ❖ 👀 Matériel : grand écran (voire deux grands écrans), surtout avec des doubles pages ; ❖ Logiciel : utilisable en l’état, sans devoir développer des fonctionnalités supplémentaires ; ❖ ⏳ Calendrier du projet : évaluer le temps d’obtention des modèles de segmentation/transcription/annotation sémantique, des données de vérité terrain en testant un échantillon représentatif éventuellement “maison” (segmentation, HTR manuels/automatiques, annotation ; temps de formation, de correction) ; ❖ 📅 Données (vérité terrain, modèles...) : plan de gestion et de documentation pendant et après leur production ; modalités de réutilisation.
  • 14. Enjeux interprofessionnels (GLAM) ❖ Mêmes problématiques, mêmes types de fonds (registres à colonne, mixtes - manuscrit / imprimé...) ❖ Documenter, formaliser et harmoniser les pratiques (grilles projet types à décliner ; référentiels et standards de segmentation et de transcription, nécessaires pour offrir des données interopérables à la paléographie computationnelle) ; ❖ Cartographier et documenter les projets et les supports d’HTR (logiciels, serveurs, corpus, financements, RH : Biblissima+, DIM MAP Cremma...) ; ❖ Écrire un manuel de référence sur l’HTR ; ❖ Ecrire un guide Ecrire un cahier des charges d’HTR.