#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manuscrits à l'âge moderne
1. Nicolas Larrousse et Michel Jacobson
TGIR-Huma-Num
Transmettre la connaissance sur le (très)
long terme
Des manuscrits à l’âge moderne
2. La préservation à l’ère médiévale
Cette aventure commence
à l’époque médiévale avec
les moines copistes qui laissent
leurs traces sur le colophon
3. L’Institut de Recherche et d’Histoire des Textes
Félix Grat
Rencontre à Rome le moine Dom Quentin de Solesmes qui
travaille sur des photographies de manuscrits pour établir la
« critique de la Vulgate de saint Jérôme »
Parcourt l’Espagne en 1933 et effectue 1600 clichés de manuscrits
(Cicéron, Ovide etc.)
Est élu député en 1936
1898-1940
4. Institut de Recherche et d’Histoire des Textes
Créé en 1937 (deux ans avant le CNRS) à la BnF pour la « préservation de la mémoire écrite
de la pensée humaine » avec le soutien de Jean Perrin (prix Nobel de Physique 1926)
Faire un relevé exhaustif des manuscrits, les photographier, mettre
l'ensemble de ce matériel à la disposition de tous les chercheurs
Intégré au CNRS à sa création en 1939 il est le seul laboratoire qui ne traite
pas de sciences exactes
La technique des microfilms documentaires commence à se développer
L’IRHT envoie ses assistants au 4 coins de l’Europe
5. Les manuscrits médiévaux des bibliothèques françaises
Depuis 1979, est lancées une campagne de
reproductions numériques dans les bibliothèques
publiques françaises en accord avec le ministère de la
Culture et de la Communication
Cette campagne concerne des textes manuscrits à
caractère religieux ou profanes écrits dans les principales
langues de culture du pourtour méditerranéen : latin,
langues romanes, hébreu, grec, copte, syriaque, arabe
Cet ensemble représente 18 500 cotes
et plusieurs centaines de milliers
d’images
6.
7. Préservation à long terme
Huma-Num accompagne les projets
de préservation et en finance l’archivage
Liens entre les producteurs de données et le CINES
Suggestion de nouveaux formats et prise en compte (e.g. formats pour la 3D ou la TEI)
Liens avec les instances archivistiques
8. La situation des manuscrits médiévaux en 2013
Plus de 40 Tos de données répartis sur 2 millions de fichiers sur l’infrastructure de Huma-Num
Les documents sont rendus accessibles en ligne via la BVMM (Bibliothèque virtuelle des manuscrits
médiévaux)
De nombreux manuscrits ne sont plus accessibles physiquement
Des travaux scientifiques ont été effectués sur certains manuscrits
La mémoire du projet ne repose que sur quelques personnes
On se dirige vers la création d’une
« nécropole numérique » de données
qui deviendront rapidement inintelligibles
9. Un projet de préservation au CINES ?
Difficultés identifiées
• Le prix de la préservation -> 5 K€ le To/an à l’époque
• Le volume de données à traiter
• Le nombre de fichiers
• Le statut de ces données particulières
• Les différents acteurs à coordonner
Etc.
10. Le projet de préservation en 2015
Le contexte évolue :
• Le prix du To au CINES diminue très fortement
• La BnF a réalisé le passage de ses données du format TIFF vers le format JPEG2000 en utilisant Kakadu
avec succès
• Huma-Num se dote d’un dispositif de stockage de grande capacité qui permet d’envisager de manipuler ces
masses de données (i.e. les organiser, leur associer des métadonnées scientifiques et techniques et assurer
la transformation dans le format cible
Tout semble se présenter sous les meilleurs auspices !
Le travail préparatoire commence
• Le service du Livre et de la Lecture du MCC donne son accord
• Les services d’archive sont informés
• Le financement est sécurisé
11.
Le stockage des données
Plan de nommage / Plan de classement
Conversion de formats
Extraction des métadonnées
Transfert des données pour archivage
Florilège de problèmes rencontrés
12. Orléans : Disques Dur au sein du laboratoire
Villeurbanne : CC-IN2P3
Paris+ Villeurbanne (Système réparti d’HN)
Montpellier+ Villeurbanne (CINES)
Le stockage dans le temps
13. Le stockage des données
étape 1) Sortir les données de l’enceinte du laboratoire producteur :
Sauvegarde brute des données dans le système iRods du CC-IN2P3
Au total de l’ordre de 2 millions de fichiers et de 50 To, principalement des fichiers volumineux au
format TIFF.
Coûteux : La définition de la politique de conservation était sans limite de temps. Toute modification
entraînant une nouvelle copie. Si le nom d’un répertoire était modifié, une nouvelle copie de l’ensemble
du répertoire était créée.
Peu maniable : usage en ligne de commandes (CLI) peu adaptée aux utilisateurs.
Dangereux : Reconstituer les collections à la suite d’un crash sur la base des seules bandes est quasi
impossible. Le plan de classement est chrono.
14. étape 2) Recopie des données sur le système de stockage répartit d’Huma-Num
Écriture d’un script pour contrôler la récupération (nommage, classement, taille des fichiers, complétude) Le rsync
avec contrôle des empreintes étant prohibitif pour ces volumes de données.
Pas d’incident de récupération de Irods mais découverte que certains fichiers avaient des tailles nulles déjà sur iRods
→ Récupération à partir des DD de l’IRHT.
Nettoyage des données pour ne garder que les données à pérenniser dans un plan nommage et de classement
rationalisé → Passage de 2M à 1M (décors, manuscrits microfilms re-numérisées en couleur…)
après nettoyage : Mise en place de la politique de sauvegarde : Deux copies disque distantes (Paris –
Lyon/Villeurbanne), une copie bande (format tar) dans la robotique de Paris et arrêt de la politique de sauvegarde sur
IRods
étape 3) Transférer les « informations » dans le système d’archivage du CINES avec
transfert de la responsabilité de conservation.
Le stockage des données
15. On s’attendait à une structure à 3 niveaux
Ville/institution/cote_manuscrits
De nombreuses exceptions
Quelques problèmes de codage de caractères dans les noms de dossiers
Homogénéisation du nommage des dossiers (StAntonin > Saint-Antonin Arch.num > Archives_Municipales...)
Création d’un niveau au dessus pour le pilotage des transferts : OK, pas_OK, pas_dans_BVMM
Plan de nommage
Extensions : tif vs TIF ; type de fichiers inattendus : xml
Caractères inattendus (accents, espaces, retour chariot)
Plan de classement / plan de nommage
16. Logiciel « Kakadu » pour passer de TIFF à JPEG2000
Demande de fortes compétences image pour son paramétrage
Problème des vignettes encapsulées
N’encapsule pas toutes les métadonnées d’origine
Contrôle de la conversion
Machine (la fonction ‘compare’ du logiciel « Imagemagick »)
Humain (affichage avec le protocole iiif)
Conversion des formats
17. Logiciel « exifTool » pour extraire les métadonnées techniques des fichiers TIFF d’origine
Choix du format de représentation des métadonnées
xml (RDF/XML), mais pas de schéma.
texte (CSV) avec encodage en UTF-8. Pour certains champs encodés dans le TIF avec un encodage CP1252, les caractères sont
insérés en l’état, aboutissant à un fichier texte non décodable.
xml (RDF/XML) avec création d’un schéma. Correction des problèmes d’encodage en transcodant les champs binaires encodés
en base64 dans le XML.
Extraction de métadonnées documentaires des bases de données de l’IRHT
Formatage METS pour la table de structure du manuscrit
Formatage en TEI pour les informations documentaires et scientifiques
Définition d’un fichier ODD documentant le codage TEI utilisé
Extraction des métadonnées
18.
Écriture d’un script pour enchaîner les taches d’extraction de
métadonnées, de conversion, de vérification, de prise d’empreintes,
d’empaquetage
Réflexions sur la parallélisation de certaines tâches ou le découpage en
étapes
Achat d’une machine dédiée qui sera facilement recyclée en fin de projet
Transfert des données
19. Conclusions
Bilan
●
Un projet de collecte qui s’étale dans le temps s’écarte forcément de son cadre d’origine et
entraîne de plus en plus de variabilité
●
Demande de réunir de multiples compétences, ainsi qu’une mémoire vivante
Que deviendrons ces archives après notre travail de reconstruction ?
●
Il sera sans doute nécessaire de former de nouveaux « moines copistes » pour le
numérique.
●
Quelle technologie traversera mieux le temps ? Le parchemin, le microfilm, le numérique.