Présentation du projet LectAuRep (Lecture automatique de répertoires) des Archives nationales aux étudiants du MAS ALIS (Master of Advanced Studies in Archival, Library and Information Science), 26 novembre 2019.
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing
Présentation du projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
Par Gilles Bertin (Ingénieur de recherche, CNAM).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
Présentation des protocoles IIIF dans le cadre de la formation au Diplôme de conservateur de bibliothèque de l'Enssib (DCB 27), à Villeurbanne le 23 janvier 2019. Par Régis Robineau (Biblissima - Campus Condorcet, EPHE-PSL).
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing
Présentation du projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
Par Gilles Bertin (Ingénieur de recherche, CNAM).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
Présentation des protocoles IIIF dans le cadre de la formation au Diplôme de conservateur de bibliothèque de l'Enssib (DCB 27), à Villeurbanne le 23 janvier 2019. Par Régis Robineau (Biblissima - Campus Condorcet, EPHE-PSL).
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de recherche et d'histoire des textes", Gilles Kagan, institut de recherche et d'histoire des textes - CNRS, dans le cadre des Journées Abes 2011
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
Rafael Schwemmer, Quelques applications pratiques de IIIF pour les bibliothèques numériques et au-delà. Journée Biblissima et IIIF "Innover pour redécouvrir le patrimoine écrit" (15 mars 2018, Campus Condorcet)
En prélude à la célébration du Cinquantenaire de l’ESSTIC qui aura lieu du 14 au 16 juin 2023, la Professeure Emmanuelle Bermès et le Professeur Édouard Vasseur de l'École Nationale des Chartes (France) ont donné une communication intitulée: "ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE"
Cette conférence a eu lieu le 18 avril 2023, à l'ESSTIC et s'inscrivait dans le cadre d'un Atelier de formation “Archives, formations en archivistique
et ingénierie du document à l’ère numérique”, Yaoundé
(Cameroun), 17-21 avril 2023
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHPhonothèque MMSH
FORMATION : Cahier des charges d’un chercheur pour l’organisation, la diffusion, l’archivage et la valorisation de ses sources
jeudi 26 novembre 2009 (MMSH, salle Paul Albert Février). Matinée : Intervention de Richard Walter, Responsable du Service éditorial et Publications électroniques, IRHT (Institut de recherche pour l’histoire des textes : Gérer un projet d’édition de sources : à l’interface entre recherche et informatique / entre chercheurs et ingénieurs…
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
Cf la seconde partie https://www.slideshare.net/lespetitescases/ralisation-dun-mashup-de-donnes-avec-dss-de-dataiku-et-visualisation-avec-palladio-deuxime-partie
Tutoriel pour réaliser un mashup à partir de jeux de données libres téléchargés sur data.gouv.fr et Wikidata entre autres avec le logiciel DSS de Dataiku. Après une introduction sur la notion de mashup et des exemples, cette première partie s'intéresse à la préparation de deux jeux de données issues de data.gouv.fr et provenant du Centre national du cinéma.
Ce tutoriel a servi de support de cours au Master 2 "Technologies numériques appliqués à l'histoire" de l'Ecole nationale des chartes lors de l'année universitaire 2016-2017.
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
Présentation sur la méthodologie de recherche dans les archives notariales
des Archives nationales (site de Paris) à la journée des étudiants des Archives nationales du 10 octobre 2023. Méthodologie de recherche axée sur les archives d'Ancien Régime (avant 1791).
Contenu connexe
Similaire à L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires).
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de recherche et d'histoire des textes", Gilles Kagan, institut de recherche et d'histoire des textes - CNRS, dans le cadre des Journées Abes 2011
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
Rafael Schwemmer, Quelques applications pratiques de IIIF pour les bibliothèques numériques et au-delà. Journée Biblissima et IIIF "Innover pour redécouvrir le patrimoine écrit" (15 mars 2018, Campus Condorcet)
En prélude à la célébration du Cinquantenaire de l’ESSTIC qui aura lieu du 14 au 16 juin 2023, la Professeure Emmanuelle Bermès et le Professeur Édouard Vasseur de l'École Nationale des Chartes (France) ont donné une communication intitulée: "ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE"
Cette conférence a eu lieu le 18 avril 2023, à l'ESSTIC et s'inscrivait dans le cadre d'un Atelier de formation “Archives, formations en archivistique
et ingénierie du document à l’ère numérique”, Yaoundé
(Cameroun), 17-21 avril 2023
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHPhonothèque MMSH
FORMATION : Cahier des charges d’un chercheur pour l’organisation, la diffusion, l’archivage et la valorisation de ses sources
jeudi 26 novembre 2009 (MMSH, salle Paul Albert Février). Matinée : Intervention de Richard Walter, Responsable du Service éditorial et Publications électroniques, IRHT (Institut de recherche pour l’histoire des textes : Gérer un projet d’édition de sources : à l’interface entre recherche et informatique / entre chercheurs et ingénieurs…
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
Cf la seconde partie https://www.slideshare.net/lespetitescases/ralisation-dun-mashup-de-donnes-avec-dss-de-dataiku-et-visualisation-avec-palladio-deuxime-partie
Tutoriel pour réaliser un mashup à partir de jeux de données libres téléchargés sur data.gouv.fr et Wikidata entre autres avec le logiciel DSS de Dataiku. Après une introduction sur la notion de mashup et des exemples, cette première partie s'intéresse à la préparation de deux jeux de données issues de data.gouv.fr et provenant du Centre national du cinéma.
Ce tutoriel a servi de support de cours au Master 2 "Technologies numériques appliqués à l'histoire" de l'Ecole nationale des chartes lors de l'année universitaire 2016-2017.
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
Présentation sur la méthodologie de recherche dans les archives notariales
des Archives nationales (site de Paris) à la journée des étudiants des Archives nationales du 10 octobre 2023. Méthodologie de recherche axée sur les archives d'Ancien Régime (avant 1791).
Présentation sur le projet LectAuRep de traitement de l'écriture manuscrite de répertoires de notaires (2018-2021), et le recensement de projets francophones d'HTR portant sur des documents d'archives réalisé dans le cadre du groupe de travail du chapitre francophone d'AI4LAM (Artificial Intelligence for Libraries, Archives and Museums, décembre 2022-), donnée le 21 mars 2023 dans le cadre de la première journée annuelle du cluster 3 (Intelligence artificielle et reconnaissance de formes et d’écritures manuscrites) de l'EquipEx Biblissima +.
https://biblissim-ia-2023.sciencesconf.org/
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
Présentation donnée au séminaire de recherche « La renaissance des grottes » organisé par Bruno Bentz et Sabine Frommel à Noisy-le-Roi le 3 novembre 2022.
Résumé
Le jardin du cardinal de Richelieu à Rueil (Hauts-de-Seine) comportait trois constructions également qualifiées de « grottes » au XVIIe siècle : une « vieille grotte » rustique de la Renaissance ; une grotte architecturée, construite en 1608 par le maître sculpteur fontainier Jean Séjourné pour le fermier général des gabelles Jean de Moisset, fouillée par l'Inrap en 2021 ; et la « grotte de rocaille », ou « grotte de la Baleine » (entre 1631 et 1639), attribuable à l’ingénieur fontainier Tommaso Francini.
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
Support de présentation du projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Production d’un modèle affiné de reconnaissance d’écriture manuscrite avec eScriptorium et évaluation de ses performances).
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing
Presentation of LectAuRep (Notary Registers Automated Reading) project. HTR applied to the French National Archives Notary Registers. IA4LAM community call, September 21st 2021 (+ link to recording in downloaded pdf).
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing
Présentation du projet LectAuRep (Lecture automatique de répertoires) au datalab HTR (reconnaissance d'écritures manuscrites) de la BnF, 26 janvier 2021 (convention cadre ministère de la Culture/département de l'innovation numérique - Inria).
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
Support de la conférence sur les jardins de Fontainebleau sous Henri IV donnée en octobre 2010 pour la société des amis de Fontainebleau à l'invitation de M. Bertrand Jestaz.
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
Présentation sur la méthodologie de recherche
dans les archives notariales
des Archives nationales
(site de Paris) à la journée des étudiants des Archives nationales, 17 octobre 2019 #EtudiantsAN19
Présentation des archives notariales conservées aux Archives nationales (département du Minutier central des notaires de Paris, site de Paris) à la journée des étudiants des Archives nationales, 17 octobre 2019 #EtudiantsAN19
Les Francini côté jardin (Aurélia Rostaing)
(Présentation à la journée d'étude "Autour de Tommaso et Alessandro Francini : hydraulique et fontaines ornementales en France (vers 1590-1640)" du Centre Chastel, 27 novembre 2014)
En septembre 1598, l'intendant des eaux de Pratolino Tommaso Francini (1571-1651) arrive à Paris afin de créer les grottes à automates hydrauliques et les fontaines des jardins de Saint-Germain-en-Laye. Secondé par son frère Alessandro († 1648), Tommaso travaille sur tous les grands chantiers de jardins de Henri IV, Marie de Médicis et Louis XIII – le Luxembourg, le Louvre et le premier Versailles –, et devient intendant des eaux des fontaines, grottes, mouvements, aqueducs, artifices et conduites d’eau des maisons, châteaux et jardins de Paris, Saint-Germain-en-Laye, Fontainebleau etc. (1623). Il intervient également sur des chantiers privés, Cormeilles-en-Parisis, Lésigny, Bagnolet, Wideville ; certainement Rueil et Saint-Cloud ; peut-être Liancourt ; et le sien, à Villepreux, où il crée une scénographie aquatique centrée sur une statue de Marie de Médicis. Son rôle, qui est à la fois de nature technique (conduite, amas et mise en œuvre des eaux) et artistique (dessins de fontaines, de masques monumentaux, de portiques et de grottes), l'amène à collaborer avec différents corps de métier, au premier rang desquels les sculpteurs. S'il existait, en Île-de-France, d'autres fontainiers et ingénieurs mécaniciens (les Monconys, Gon, Robelin etc.), le rôle prééminent que les Francini tinrent aux côtés du jardinier Claude I Mollet a certainement contribué à façonner l'art et le style des jardins, des fontaines et de la mise en scène de l'eau des années 1600-1640, avant que de nouveaux venus (Louis Le Vau, André Le Nôtre, Charles Le Brun) ne viennent modifier radicalement, sous la minorité de Louis XIV, ce goût typiquement maniériste que Saint-Simon qualifiera dédaigneusement de "colifichet", autrement dit : kitsch.
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
Présentation du travail terminologique autour du jeu vidéo ("Autour des jeux sérieux (serious games)", après-midi d'étude, Bibliothèque nationale de France, 5 février 2014).
http://www.bnf.fr/fr/evenements_et_culture/auditoriums/f.jeux_serieux.html?seance=1223914237698
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires).
1. L’intelligence artificielle appliquée aux archives
LectAuRep (Lecture automatique de répertoires)
Le projet des Archives nationales
avec l’Institut national de recherche en informatique et automatique
La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Archives nationales
Site de Pierrefitte-Saint-Denis
26 novembre 2019
Master of Advanced Studies in Archival,
Library and Information Science
(MAS ALIS)
2. I. Ambitions
1. Corpus
2. Enjeux
II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
6. Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre
1803 et 1944.
Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun).
Plus de 900 notaires différents.
Plusieurs milliers de mains de scribes différents.
Quelques dizaines de répertoires numérisés depuis 2013, directement
d’après les originaux (pas d’après microfilms : sans nuances de gris).
7. Enjeux
☛ pour le public des archives
☛ pour le réseau des services publics
d’archives et les institutions patrimoniales
(bibliothèques, musées…)
Library of Congress, Rosenwald 4, fol. 5r
8. II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
Le projet LectAuRep
Lecture automatique de répertoires
9. Cadre juridique
La convention MIC/DIN - Inria
Convention-cadre signée le 12 décembre 2016
projet « préliminaire » : premier semestre 2018 (15000 €)
projet « approfondi » : second semestre 2019 (65000 €)
projet « approfondi » : année 2020 (65000 €)
10. Ministère de la Culture, département de l’innovation numérique :
– Bertrand Sajus
Inria, équipe ALMAnaCH :
– Marie-Laurence Bonhomme (stagiaire TNAH de l’Ecole nationale des chartes, phase 1)
– Marc Bui (EPHE, projet eScripta)
– Alix Chagué (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 2)
– Hassane Gargem (projet eScripta, fin de la phase 2)
– Benjamin Kiessling (projet eScripta)
– Eric de La Clergerie (Inria)
– Marie Puren (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 1)
– Charles Riondet (diplômé TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à
Inria, phase 1)
– Laurent Romary, coordonnateur du projet pour l’INRIA
– Daniel Stökl Ben Ezra (EPHE, projet eScripta)
– Lionel Tadjou (contractuel Inria, phase 2)
– Robin Tissot (phase 2, projet eScripta)
Archives nationales :
– Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC)
– Gaetano Piraino (diplômé TNAH de l’Ecole nationale des chartes), Frédéric Zamarreno (DMOASI)
Équipes
11. Phasage
Phase 1 – 2018
Étude de faisabilité et état de l’art ; plateforme Transkribus.
Phase 2 – 2019
Explorer les possibilités de segmentation automatique et de reconnaissance
d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles.
Nouveau projet : eScripta (IRIS Scripta-PSL : histoire et pratiques de l’écrit).
Nouvelle plateforme : eScriptorium (Kraken), calibrée pour des écritures en
alphabets latins et non latins, non alphabétiques, allant de droite à gauche, de
haut en bas…
Nouvel outil : ShareDocs (très grande infrastructure de recherche Huma-Num).
12. III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
13. Phase 1 (Transkribus)
Analyse de la mise en page
Marges : vides (sauf exceptions)
Numéro de l’acte : nombre entre 1 et 3000
Date de l’acte (jour) : nombre entre 1 et 31
Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé
Date de l’acte (année et mois) : écritures mixtes (imprimées et manuscrites)
Description de l’acte : nom et adresse des signataires, prix de vente d’un bien,
date d’un décès, etc.
Date d’enregistrement (jour) : nombre entre 1 et 31
Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
14. Traitements
1. Classification par reconnaissance de formes
Colonnes de chiffres ou de nombres
- Dates
- Numéros d’actes
- Taxes
Colonnes de texte « simple » des types d’actes
2. Reconnaissance de caractères manuscrits : obtention de données
d'entraînement pour construire un modèle de reconnaissance
Segmentation puis transcription collectives internes d’une
cinquantaine de pages d’un répertoire avec Transkribus (import des
images numérisées, segmentation, transcription cellule par cellule)
15.
16.
17. Résultats de la phase 1
Classification par reconnaissance de formes
☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les
chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de
neurones.
Reconnaissance de caractères manuscrits
☛Typologies d’actes : premier travail de classification manuelle (à enrichir).
Difficultés rencontrées :
Respecter le texte à la lettre (« vérité terrain »)
Typologie absente (quand un acte est la « suite » d’un premier acte)
Hétérogénéité et polysémie des formes abrégées (ex. cat : contrat,
certificat…)
Typologies multiples pour un acte (ct. de mariage, contrat de
mariage, cat de mariage…)
18. Entraînement d’un modèle de reconnaissance de caractères manuscrits à
partir des pages d’un seul scribe transcrites manuellement jusqu’à un
niveau de qualité dit « vérité terrain » :
Modèle M1 : 40 pages
Modèle M2 : 50 pages (1 million de mots)
☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même
répertoire :
Modèle M1 : 13,5 %
Modèle M2 : 10,4 %
Ce taux d’erreur reste important, mais il peut être amélioré.
☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc
d'autres mains.
Les résultats ne sont pas satisfaisants du tout (TEC autour de 40 %) : il
faut des données d’entraînement plus hétérogènes.
19. Un golden set et un random set d’images de répertoires (10000 doubles
pages en noir et blanc et en couleur, et près de 1000 en couleur) ont été
fournis par l’équipe AN à l’équipe INRIA et mis à disposition sur ShareDocs.
Phase 2 (eScriptorium)
20. ☛ golden set : 41 registres (1789-1875) numérisés en noir et blanc et en
couleur, produits par 12 notaires de 4 études différentes, référence pour les
entraînements et les tests des phases 2 et 3
☛ random set : échantillonnage aléatoire de quatre campagnes de
numérisation récentes en couleur (années 1880-années 1930)
☛ Plusieurs dizaines de mains différentes
21. La plateforme eScriptorium, interface graphique pour Kraken, propose des
fonctionnalités de traitement d’image et de texte utiles pour la segmentation
et la transcription automatiques de documents numérisés.
☛ Fonctionnalités disponibles
Entraînement de modèles de transcription et de segmentation
Segmentation manuelle ou automatique par régions et par lignes
Transcription manuelle ou automatique avec un modèle préentraîné
Chargement d’image (PNG, JPEG, TIFF...) ; import d’images (IIIF)
Binarisation des images
Export (XML ALTO, texte)
Gestion manuelle des métadonnées
☛ Fonctionnalités à venir
Amélioration de la segmentation
Import automatique des métadonnées
Export au format XML TEI
25. Flux de travaux pour le découpage des doubles pages
et la détection des tableaux
26. Résultats de la phase 2
☛ Entraînement d’un modèle de segmentation (taux d’exactitude
d’étiquetage de pixel : de 51,2% à 59,2% ; cible : ca 70 % ?) ;
☛ Entraînement d’un modèle de transcription à partir des
données d’entraînement produites avec Transkribus lors de la
phase 1 (augmentation du TEC de 10,43 à 19,36 % en raison de
l’imprécision des segments récupérés de Transkribus vers
Kraken) ;
☛ Choix d’une interface pour le traitement des images dans
eScriptorium.
27. À approfondir :
☛ Découpage et redressement éventuel des doubles pages après
détection des zones des tableaux (module basé sur dhSegment
ou utilisation de l’algorithme Canny Edge Detection à l’étude) ;
☛ Structuration des analyses à partir des indices de mise en
page et de mise en forme ;
☛ Détection automatique des mains d’écriture pour adapter le
modèle de transcription ;
☛ Entraînement de modèles de transcription spécifiques à
certaines mains d’écriture ;
☛ Mise en production de l’interface de traitement des images.
28. Plusieurs mains de scribes par répertoire
Plus de 1800 répertoires
Un modèle à entraîner pour chaque main…
…Vers une interface collaborative adossée à eScriptorium pour entraîner puis
corriger les données de segmentation et de transcription obtenues par
automatisation.
…avec, si possible, des outils de visualisation et de traitement des données ;
…avec, si possible, des fonctionnalités de reconnaissance d’entités nommées et
de liage de ces entités à des référentiels internes ou externes aux Archives
nationales.
Phase 3 (eScriptorium)
29. À venir :
☛ Déploiement d’une instance eScriptorium pour LectAuRep sur une
machine virtuelle de l’Inria, couplée à son cluster pour les calculs ;
☛ Développement du module d’import des métadonnées, à partir des
fichiers XML EAD des Archives nationales, au moment de l’import des
images ;
☛ Développement d’un module de découpage des doubles pages, de
cadrage sur les tableaux avec réorientation de l’image (si nécessaire) et de
détection des colonnes (système de masques basé sur dhSegment) ;
☛ Établissement d’un banc d’essai sur les plateformes de production
participative (crowdsourcing) de projets similaires à LectAuRep ;
☛ Rédaction d’un cahier des charges pour le développement agile d’un
prototype d’interface pour le crowdsourcing.
30. Site de Paris
60, rue des Francs-Bourgeois
75003 Paris
Site de Pierrefitte-sur-Seine
59, rue Guynemer
93380 Pierrefitte-sur-Seine
www.archives-
nationales.culture.gouv.fr
☛ Günter Mühlberger, «Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for
Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition
Platform (TRP) » (preprint).
☛ Günter Mühlberger, L. Seaward, M. Terras et al., « Transforming scholarship in the archives through
handwritten text recognition », Journal of Documentation, 75-5 (2019), p. 954-976.
☛ Carnet de recherche Rechtsprechung im Osteeraum. Digitization & Handwritten Text Recognition.
☛ Projet Himanis (HIstorical MANuscript Indexing for user-controlled Search) et carnet de recherche.
☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des Notaires parisiens Segmentation
automatique et reconnaissance d'écriture : Rapport exploratoire, [contrat] Inria, 2018.
☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier Culture/INRIA, 22 novembre 2018.
☛ Indexation collaborative de registres de contrats de mariage de commerçants, 1829-1934, depuis le carnet
de recherche Archives nationales participatives.
☛ Projet Filigranes pour tous : carnet de recherche.
☛ Projet Testaments de Poilus.
☛ Peter A. Stokes, Daniel Stökl Ben Ezra, Benjamin Kiessling, Robin Tissot, « EScripta: A New Digital
Platform for the Study of Historical Texts and Writing ».
☛ Initiative de recherche interdisciplinaire et stratégique Scripta-PSL.
☛ eScripta. « Digital Tools and Techniques for the Study of Ancient Writing »: carnet de recherche, galerie
de tutoriels vidéo.
☛ Tsvi Kuflik, Moshe Lavee, Daniel Stökl Ben Ezra, Avigail Ohal, Vered Raziel-Kretzmer, Uri Schor, Alan
Wecker, Elena Lolli,Pauline Signoret, « Combining HTR and Crowdsourcing for Automated Transcription of
Hebrew Medieval Manuscripts ». DH2019 - Tikkoun Sofrim.
☛ Tikkoun Sofrim (Crowdsourcing and gamification for correcting automatic manuscript transcriptions).