SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Nicolas Larrousse et Michel Jacobson
TGIR-Huma-Num
Transmettre la connaissance sur le (très)
long terme
Des manuscrits à l’âge moderne
La préservation à l’ère médiévale
Cette aventure commence
à l’époque médiévale avec
les moines copistes qui laissent
leurs traces sur le colophon
L’Institut de Recherche et d’Histoire des Textes
Félix Grat
Rencontre à Rome le moine Dom Quentin de Solesmes qui
travaille sur des photographies de manuscrits pour établir la
« critique de la Vulgate de saint Jérôme »
Parcourt l’Espagne en 1933 et effectue 1600 clichés de manuscrits
(Cicéron, Ovide etc.)
Est élu député en 1936
1898-1940
Institut de Recherche et d’Histoire des Textes
Créé en 1937 (deux ans avant le CNRS) à la BnF pour la « préservation de la mémoire écrite
de la pensée humaine » avec le soutien de Jean Perrin (prix Nobel de Physique 1926)
Faire un relevé exhaustif des manuscrits, les photographier, mettre
l'ensemble de ce matériel à la disposition de tous les chercheurs
Intégré au CNRS à sa création en 1939 il est le seul laboratoire qui ne traite
pas de sciences exactes
La technique des microfilms documentaires commence à se développer
L’IRHT envoie ses assistants au 4 coins de l’Europe
Les manuscrits médiévaux des bibliothèques françaises
Depuis 1979, est lancées une campagne de
reproductions numériques dans les bibliothèques
publiques françaises en accord avec le ministère de la
Culture et de la Communication
Cette campagne concerne des textes manuscrits à
caractère religieux ou profanes écrits dans les principales
langues de culture du pourtour méditerranéen : latin,
langues romanes, hébreu, grec, copte, syriaque, arabe
Cet ensemble représente 18 500 cotes
et plusieurs centaines de milliers
d’images
Préservation à long terme
Huma-Num accompagne les projets
de préservation et en finance l’archivage
Liens entre les producteurs de données et le CINES
Suggestion de nouveaux formats et prise en compte (e.g. formats pour la 3D ou la TEI)
Liens avec les instances archivistiques
La situation des manuscrits médiévaux en 2013
Plus de 40 Tos de données répartis sur 2 millions de fichiers sur l’infrastructure de Huma-Num
Les documents sont rendus accessibles en ligne via la BVMM (Bibliothèque virtuelle des manuscrits
médiévaux)
De nombreux manuscrits ne sont plus accessibles physiquement
Des travaux scientifiques ont été effectués sur certains manuscrits
La mémoire du projet ne repose que sur quelques personnes
On se dirige vers la création d’une
« nécropole numérique » de données
qui deviendront rapidement inintelligibles
Un projet de préservation au CINES ?
Difficultés identifiées
• Le prix de la préservation -> 5 K€ le To/an à l’époque
• Le volume de données à traiter
• Le nombre de fichiers
• Le statut de ces données particulières
• Les différents acteurs à coordonner
Etc.
Le projet de préservation en 2015
Le contexte évolue :
• Le prix du To au CINES diminue très fortement
• La BnF a réalisé le passage de ses données du format TIFF vers le format JPEG2000 en utilisant Kakadu
avec succès
• Huma-Num se dote d’un dispositif de stockage de grande capacité qui permet d’envisager de manipuler ces
masses de données (i.e. les organiser, leur associer des métadonnées scientifiques et techniques et assurer
la transformation dans le format cible
Tout semble se présenter sous les meilleurs auspices !
Le travail préparatoire commence
• Le service du Livre et de la Lecture du MCC donne son accord
• Les services d’archive sont informés
• Le financement est sécurisé

Le stockage des données

Plan de nommage / Plan de classement

Conversion de formats

Extraction des métadonnées

Transfert des données pour archivage
Florilège de problèmes rencontrés
Orléans : Disques Dur au sein du laboratoire
Villeurbanne : CC-IN2P3
Paris+ Villeurbanne (Système réparti d’HN)
Montpellier+ Villeurbanne (CINES)
Le stockage dans le temps
Le stockage des données
étape 1) Sortir les données de l’enceinte du laboratoire producteur :

Sauvegarde brute des données dans le système iRods du CC-IN2P3

Au total de l’ordre de 2 millions de fichiers et de 50 To, principalement des fichiers volumineux au
format TIFF.

Coûteux : La définition de la politique de conservation était sans limite de temps. Toute modification
entraînant une nouvelle copie. Si le nom d’un répertoire était modifié, une nouvelle copie de l’ensemble
du répertoire était créée.

Peu maniable : usage en ligne de commandes (CLI) peu adaptée aux utilisateurs.

Dangereux : Reconstituer les collections à la suite d’un crash sur la base des seules bandes est quasi
impossible. Le plan de classement est chrono.
étape 2) Recopie des données sur le système de stockage répartit d’Huma-Num
 Écriture d’un script pour contrôler la récupération (nommage, classement, taille des fichiers, complétude) Le rsync
avec contrôle des empreintes étant prohibitif pour ces volumes de données.
 Pas d’incident de récupération de Irods mais découverte que certains fichiers avaient des tailles nulles déjà sur iRods
→ Récupération à partir des DD de l’IRHT.
 Nettoyage des données pour ne garder que les données à pérenniser dans un plan nommage et de classement
rationalisé → Passage de 2M à 1M (décors, manuscrits microfilms re-numérisées en couleur…)
 après nettoyage : Mise en place de la politique de sauvegarde : Deux copies disque distantes (Paris –
Lyon/Villeurbanne), une copie bande (format tar) dans la robotique de Paris et arrêt de la politique de sauvegarde sur
IRods
étape 3) Transférer les « informations » dans le système d’archivage du CINES avec
transfert de la responsabilité de conservation.
Le stockage des données
On s’attendait à une structure à 3 niveaux
 Ville/institution/cote_manuscrits
 De nombreuses exceptions
 Quelques problèmes de codage de caractères dans les noms de dossiers
 Homogénéisation du nommage des dossiers (StAntonin > Saint-Antonin Arch.num > Archives_Municipales...)
 Création d’un niveau au dessus pour le pilotage des transferts : OK, pas_OK, pas_dans_BVMM
Plan de nommage
 Extensions : tif vs TIF ; type de fichiers inattendus : xml
 Caractères inattendus (accents, espaces, retour chariot)
Plan de classement / plan de nommage
Logiciel « Kakadu » pour passer de TIFF à JPEG2000
 Demande de fortes compétences image pour son paramétrage
 Problème des vignettes encapsulées
 N’encapsule pas toutes les métadonnées d’origine
 Contrôle de la conversion

Machine (la fonction ‘compare’ du logiciel « Imagemagick »)

Humain (affichage avec le protocole iiif)
Conversion des formats
Logiciel « exifTool » pour extraire les métadonnées techniques des fichiers TIFF d’origine

Choix du format de représentation des métadonnées
 xml (RDF/XML), mais pas de schéma.
 texte (CSV) avec encodage en UTF-8. Pour certains champs encodés dans le TIF avec un encodage CP1252, les caractères sont
insérés en l’état, aboutissant à un fichier texte non décodable.
 xml (RDF/XML) avec création d’un schéma. Correction des problèmes d’encodage en transcodant les champs binaires encodés
en base64 dans le XML.
Extraction de métadonnées documentaires des bases de données de l’IRHT
 Formatage METS pour la table de structure du manuscrit
 Formatage en TEI pour les informations documentaires et scientifiques

Définition d’un fichier ODD documentant le codage TEI utilisé
Extraction des métadonnées

Écriture d’un script pour enchaîner les taches d’extraction de
métadonnées, de conversion, de vérification, de prise d’empreintes,
d’empaquetage

Réflexions sur la parallélisation de certaines tâches ou le découpage en
étapes

Achat d’une machine dédiée qui sera facilement recyclée en fin de projet
Transfert des données
Conclusions
Bilan
●
Un projet de collecte qui s’étale dans le temps s’écarte forcément de son cadre d’origine et
entraîne de plus en plus de variabilité
●
Demande de réunir de multiples compétences, ainsi qu’une mémoire vivante
Que deviendrons ces archives après notre travail de reconstruction ?
●
Il sera sans doute nécessaire de former de nouveaux « moines copistes » pour le
numérique.
●
Quelle technologie traversera mieux le temps ? Le parchemin, le microfilm, le numérique.
#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manuscrits à l'âge moderne

Contenu connexe

Similaire à #AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manuscrits à l'âge moderne

Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérienceSauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expériencePhonothèque MMSH
 
Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeureGov Innovation Center
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Lesticetlart Invisu
 
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Peccatte
 
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Peter Stockinger
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesY. Nicolas
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for BioinformaticsKarim Mezhoud
 
L'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceL'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceJulien Masanès
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et éditionEquipex Biblissima
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...Aurélia Rostaing
 
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...Sylvie Dalbin
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)ABES
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)ABES
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
 

Similaire à #AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manuscrits à l'âge moderne (20)

2013 bibnum ebd
2013 bibnum ebd2013 bibnum ebd
2013 bibnum ebd
 
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérienceSauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
Sauvegarde sur le long terme à la phonothèque de la MMSH. Récit d’une expérience
 
Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le Meur
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
 
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
Travailler avec des archives audiovisuels numériques. Deuxième partie : Digit...
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartes
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
L'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceL'archivage du Web, présentation college de france
L'archivage du Web, présentation college de france
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et édition
 
Ppt msh def.
Ppt msh def.Ppt msh def.
Ppt msh def.
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
 
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...
Représentation et accès: continuités et transformations. Chapitre 4. Métadonn...
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)
 
Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)Calames oct. 2010 (Saint-Mihiel)
Calames oct. 2010 (Saint-Mihiel)
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
 

Plus de AssociationAF

RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
Presentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfPresentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfAssociationAF
 
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdfAssociationAF
 
Les archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerLes archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerAssociationAF
 
Chacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueChacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueAssociationAF
 
Quand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeQuand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeAssociationAF
 
20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptxAssociationAF
 
Le fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELLe fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELAssociationAF
 
Les archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansLes archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansAssociationAF
 
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24AssociationAF
 
table ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pastable ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pasAssociationAF
 
20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.pptAssociationAF
 
A la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleA la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleAssociationAF
 
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptxAssociationAF
 
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfDUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfAssociationAF
 
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfMEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfAssociationAF
 
SEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfSEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfAssociationAF
 

Plus de AssociationAF (20)

RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
Presentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfPresentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdf
 
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
 
Les archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerLes archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformer
 
Chacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueChacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloque
 
Quand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeQuand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table ronde
 
20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx
 
Le fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELLe fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MEL
 
Les archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansLes archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'Orléans
 
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
 
table ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pastable ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pas
 
20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt
 
A la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleA la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielle
 
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
 
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfDUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
 
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfMEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
 
SEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfSEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdf
 

#AAFSaintÉ19 : Transmettre la connaissance sur le (très) long terme: des manuscrits à l'âge moderne

  • 1. Nicolas Larrousse et Michel Jacobson TGIR-Huma-Num Transmettre la connaissance sur le (très) long terme Des manuscrits à l’âge moderne
  • 2. La préservation à l’ère médiévale Cette aventure commence à l’époque médiévale avec les moines copistes qui laissent leurs traces sur le colophon
  • 3. L’Institut de Recherche et d’Histoire des Textes Félix Grat Rencontre à Rome le moine Dom Quentin de Solesmes qui travaille sur des photographies de manuscrits pour établir la « critique de la Vulgate de saint Jérôme » Parcourt l’Espagne en 1933 et effectue 1600 clichés de manuscrits (Cicéron, Ovide etc.) Est élu député en 1936 1898-1940
  • 4. Institut de Recherche et d’Histoire des Textes Créé en 1937 (deux ans avant le CNRS) à la BnF pour la « préservation de la mémoire écrite de la pensée humaine » avec le soutien de Jean Perrin (prix Nobel de Physique 1926) Faire un relevé exhaustif des manuscrits, les photographier, mettre l'ensemble de ce matériel à la disposition de tous les chercheurs Intégré au CNRS à sa création en 1939 il est le seul laboratoire qui ne traite pas de sciences exactes La technique des microfilms documentaires commence à se développer L’IRHT envoie ses assistants au 4 coins de l’Europe
  • 5. Les manuscrits médiévaux des bibliothèques françaises Depuis 1979, est lancées une campagne de reproductions numériques dans les bibliothèques publiques françaises en accord avec le ministère de la Culture et de la Communication Cette campagne concerne des textes manuscrits à caractère religieux ou profanes écrits dans les principales langues de culture du pourtour méditerranéen : latin, langues romanes, hébreu, grec, copte, syriaque, arabe Cet ensemble représente 18 500 cotes et plusieurs centaines de milliers d’images
  • 6.
  • 7. Préservation à long terme Huma-Num accompagne les projets de préservation et en finance l’archivage Liens entre les producteurs de données et le CINES Suggestion de nouveaux formats et prise en compte (e.g. formats pour la 3D ou la TEI) Liens avec les instances archivistiques
  • 8. La situation des manuscrits médiévaux en 2013 Plus de 40 Tos de données répartis sur 2 millions de fichiers sur l’infrastructure de Huma-Num Les documents sont rendus accessibles en ligne via la BVMM (Bibliothèque virtuelle des manuscrits médiévaux) De nombreux manuscrits ne sont plus accessibles physiquement Des travaux scientifiques ont été effectués sur certains manuscrits La mémoire du projet ne repose que sur quelques personnes On se dirige vers la création d’une « nécropole numérique » de données qui deviendront rapidement inintelligibles
  • 9. Un projet de préservation au CINES ? Difficultés identifiées • Le prix de la préservation -> 5 K€ le To/an à l’époque • Le volume de données à traiter • Le nombre de fichiers • Le statut de ces données particulières • Les différents acteurs à coordonner Etc.
  • 10. Le projet de préservation en 2015 Le contexte évolue : • Le prix du To au CINES diminue très fortement • La BnF a réalisé le passage de ses données du format TIFF vers le format JPEG2000 en utilisant Kakadu avec succès • Huma-Num se dote d’un dispositif de stockage de grande capacité qui permet d’envisager de manipuler ces masses de données (i.e. les organiser, leur associer des métadonnées scientifiques et techniques et assurer la transformation dans le format cible Tout semble se présenter sous les meilleurs auspices ! Le travail préparatoire commence • Le service du Livre et de la Lecture du MCC donne son accord • Les services d’archive sont informés • Le financement est sécurisé
  • 11.  Le stockage des données  Plan de nommage / Plan de classement  Conversion de formats  Extraction des métadonnées  Transfert des données pour archivage Florilège de problèmes rencontrés
  • 12. Orléans : Disques Dur au sein du laboratoire Villeurbanne : CC-IN2P3 Paris+ Villeurbanne (Système réparti d’HN) Montpellier+ Villeurbanne (CINES) Le stockage dans le temps
  • 13. Le stockage des données étape 1) Sortir les données de l’enceinte du laboratoire producteur :  Sauvegarde brute des données dans le système iRods du CC-IN2P3  Au total de l’ordre de 2 millions de fichiers et de 50 To, principalement des fichiers volumineux au format TIFF.  Coûteux : La définition de la politique de conservation était sans limite de temps. Toute modification entraînant une nouvelle copie. Si le nom d’un répertoire était modifié, une nouvelle copie de l’ensemble du répertoire était créée.  Peu maniable : usage en ligne de commandes (CLI) peu adaptée aux utilisateurs.  Dangereux : Reconstituer les collections à la suite d’un crash sur la base des seules bandes est quasi impossible. Le plan de classement est chrono.
  • 14. étape 2) Recopie des données sur le système de stockage répartit d’Huma-Num  Écriture d’un script pour contrôler la récupération (nommage, classement, taille des fichiers, complétude) Le rsync avec contrôle des empreintes étant prohibitif pour ces volumes de données.  Pas d’incident de récupération de Irods mais découverte que certains fichiers avaient des tailles nulles déjà sur iRods → Récupération à partir des DD de l’IRHT.  Nettoyage des données pour ne garder que les données à pérenniser dans un plan nommage et de classement rationalisé → Passage de 2M à 1M (décors, manuscrits microfilms re-numérisées en couleur…)  après nettoyage : Mise en place de la politique de sauvegarde : Deux copies disque distantes (Paris – Lyon/Villeurbanne), une copie bande (format tar) dans la robotique de Paris et arrêt de la politique de sauvegarde sur IRods étape 3) Transférer les « informations » dans le système d’archivage du CINES avec transfert de la responsabilité de conservation. Le stockage des données
  • 15. On s’attendait à une structure à 3 niveaux  Ville/institution/cote_manuscrits  De nombreuses exceptions  Quelques problèmes de codage de caractères dans les noms de dossiers  Homogénéisation du nommage des dossiers (StAntonin > Saint-Antonin Arch.num > Archives_Municipales...)  Création d’un niveau au dessus pour le pilotage des transferts : OK, pas_OK, pas_dans_BVMM Plan de nommage  Extensions : tif vs TIF ; type de fichiers inattendus : xml  Caractères inattendus (accents, espaces, retour chariot) Plan de classement / plan de nommage
  • 16. Logiciel « Kakadu » pour passer de TIFF à JPEG2000  Demande de fortes compétences image pour son paramétrage  Problème des vignettes encapsulées  N’encapsule pas toutes les métadonnées d’origine  Contrôle de la conversion  Machine (la fonction ‘compare’ du logiciel « Imagemagick »)  Humain (affichage avec le protocole iiif) Conversion des formats
  • 17. Logiciel « exifTool » pour extraire les métadonnées techniques des fichiers TIFF d’origine  Choix du format de représentation des métadonnées  xml (RDF/XML), mais pas de schéma.  texte (CSV) avec encodage en UTF-8. Pour certains champs encodés dans le TIF avec un encodage CP1252, les caractères sont insérés en l’état, aboutissant à un fichier texte non décodable.  xml (RDF/XML) avec création d’un schéma. Correction des problèmes d’encodage en transcodant les champs binaires encodés en base64 dans le XML. Extraction de métadonnées documentaires des bases de données de l’IRHT  Formatage METS pour la table de structure du manuscrit  Formatage en TEI pour les informations documentaires et scientifiques  Définition d’un fichier ODD documentant le codage TEI utilisé Extraction des métadonnées
  • 18.  Écriture d’un script pour enchaîner les taches d’extraction de métadonnées, de conversion, de vérification, de prise d’empreintes, d’empaquetage  Réflexions sur la parallélisation de certaines tâches ou le découpage en étapes  Achat d’une machine dédiée qui sera facilement recyclée en fin de projet Transfert des données
  • 19. Conclusions Bilan ● Un projet de collecte qui s’étale dans le temps s’écarte forcément de son cadre d’origine et entraîne de plus en plus de variabilité ● Demande de réunir de multiples compétences, ainsi qu’une mémoire vivante Que deviendrons ces archives après notre travail de reconstruction ? ● Il sera sans doute nécessaire de former de nouveaux « moines copistes » pour le numérique. ● Quelle technologie traversera mieux le temps ? Le parchemin, le microfilm, le numérique.