Diaporama autour des enjeux de la conservation et de l’archivage du patrimoine numérique, des efforts de normalisation et des actions réalisées par la BNF sur ce sujet ainsi que les perspectives et vecteurs d’attention.
Citoyen 2.0 - Déjeuner sur le web - 16 décembre 2011
La conservation du patrimoine culturel numérique (2009)
1. La conservation du patrimoine
culturel numérique
Catherine Dhérent
Bibliothèque nationale de France
2. Concerne tous les secteurs patrimoniaux
(bibliothèques, archives, musées)
• Les premiers à s’y être intéressés dès les années 1980 : les
responsables d’archives pour les grandes bases de données
structurées (Archives nationales françaises, NARA aux USA)
• Pour les bibliothèques de dépôt légal, l’obligation de conserver jeux
et audiovisuel numériques était au même moment un nouveau défi,
renforcé depuis 1995-2000, avec l’explosion de l’internet et la
publication parfois exclusive sur ce média (par ex. revues
scientifiques)
• Depuis le début des années 1990, s’y ajoutent gros programmes de
numérisation des collections physiques qui coûtent cher (moyens
financiers et humains)
• De plus en plus d’œuvres existent d’abord sous forme numérique
voire n’existent plus que sous cette forme
Conservation des données numériques, 13 octobre 2009 2
3. Le numérique a de
nombreux avantages
• Se diffuse mieux
• Se multiplie plus facilement
• Et donc permet d’assurer plus de garantie
pour sa conservation
• Est dans certains cas, la seule solution
pour prolonger la vie d’une information
(par ex. pour les supports audiovisuels les
plus fragiles ou la presse du XIXe siècle)
Conservation des données numériques, 13 octobre 2009 3
4. Mais il est difficile à
conserver
• Nécessite une grande expérience, des budgets
conséquents, des duplications, des garanties pour la
sécurité et la confidentialité de certaines données
• Est volatil et les supports s’autodétruisent
inéluctablement
• Nécessite donc une attention constante
• Le coût de sa conservation ne décroît pas. Il faudrait
tenter de le stabiliser.
• Mais vu le volume des informations et son inflation
constante, il est difficile à trier et sélectionner
Conservation des données numériques, 13 octobre 2009 4
5. Archiver n’est pas
stocker
• Différence entre stockage
– On retrouve le vrac qu’on a déposé
– Les documents restent dans le format de données du
versement et peuvent être illisibles quelques années
plus tard
• Et archivage
– Les documents sont organisés, gérés avec des
métadonnées dont leur identifiant pérenne
– Leur vie est réglée selon des processus et des
services de qualité attachés à chaque étape des
processus (entrée, gestion dans le magasin virtuel y
compris migration, élimination, accès avec gestion
des droits)
– Une veille est faite sur les formats
Conservation des données numériques, 13 octobre 2009 5
6. Convergence des efforts
• Mutualisation nécessaire
– Entre secteurs patrimoniaux
– Au sein d’un pays
– Au niveau international
• Initiatives fortement encouragées par des
organisations internationales ou
intergouvernementales
– UNESCO : Charte sur la conservation du patrimoine
numérique, 15 octobre 2003
– Commission européenne : Recommandation sur la
numérisation et l’accessibilité en ligne du matériel
culturel et la conservation numérique, 24 août 2006
Conservation des données numériques, 13 octobre 2009 6
7. Enjeux principaux
• Conserver de façon intègre, fiable, une information
volumineuse, protéiforme
• Permettre l’accès pérenne à cette information pour la
garantie des droits en 1er lieu, à fins de mémoire ensuite
• Assurer l’indépendance et la sécurité des données
• Répondre à des prescriptions légales comme celle de
conservation du dépôt légal ou celles concernant les
archives publiques
• Maîtriser les coûts et les maintenir supportables par la
collectivité
• Utiliser le plus possible des technologies réexploitables
(rôle de l’open-source)
Conservation des données numériques, 13 octobre 2009 7
8. Mesures à prendre
• Produire les données sur des systèmes qui
garantissent leur authenticité et leur stabilité,
grâce à des :
– Standards et procédures communs
– Des logiciels open-source
– Des infrastructures partagées qui réduisent aussi les
coûts
• Créer des dépôts de confiance
• Former des équipes qui aient les compétences
nécessaires
Conservation des données numériques, 13 octobre 2009 8
9. Recherche et normalisation
internationale
• Internet Archive : http://www.archive.org/index.php
– Association « non-profit », fondée en 1996, San Francisco
– Construire une « internet library » pour les chercheurs universitaires, pour éviter
ce que Danny Hillis a appelé le « digital dark age »
• International internet preservation consortium (IIPC)
– Fondé en 2003, 10 BN, Internet Archive
– Pour développements technologiques (opensource), lobbying politique et
juridique, coopération documentaire
– France y est présente avec BnF et INA
– Recherche sur moissonnage (Héritrix), recherche et navigation par url (Wayback
machine), indexation plein texte (Nutchwax), gestion et conservation (WarcTools)
– Collections : élections européennes, US End of term, JO 2012
• Des normes internationales
– OAIS (ISO 14721:2003 )
– Formats des documents (XML, JPEG2000 à la place du TIFF pour les images ?,
PDF/A et E…)
Conservation des données numériques, 13 octobre 2009 9
10. Programmes nationaux
• National Digital Information Infrastructure and
Preservation Program, NDIIPP (Library of Congress,
USA)
– Projet Duracloud lancé en juillet 2009 (avec DuraSpace, New-
York Public Library, Biodiversity Heritage Library) : test de cloud
computing, fourniture de fichier JPEG2000, cloud storage
• Schéma numérique des bibliothèques en France,
mission confiée au président de la BnF, Bruno Racine
– Rapport pour novembre 2009
– Idée de mutualisation des moyens pour la conservation du
numérique, pour l’acquisition également
Conservation des données numériques, 13 octobre 2009 10
11. Bibliothèque nationale
de France
• Objets : dépôt légal numérique dont web, documents numérisés,
archives administratives, tiers-archivage
• Jusqu’en 2003, seulement supports de sauvegarde
• 2004 : lancement du Système de Préservation et d’archivage réparti
(SPAR) avec un magasin virtuel vivant permettant :
– Stockage de grande capacité (StorageTek puis SUN)
• Un site principal, un site de secours
• 412 To de données en 2009, 2 274 en 2013
• Baies de disques ou bandes selon l’usage
• Coût total : 8,5 M€ 2005-2008 ; 12 M€ 2009-2013
– Préservation à long terme des données
• Grande variété de formats
– Gestion des accès et des droits
• Tiers-archivage à partir de 2011
Conservation des données numériques, 13 octobre 2009 11
12. Des points positifs…
• La recherche et la collaboration internationales
évitent les erreurs du passé
• Des quantités importantes de Po sont
aujourd’hui correctement conservées
• Elles sont aussi communiquées et sont de plus
en plus utilisées
– Y compris les archives du web (à la BnF une
quarantaine de demandes par mois pour un service
lancé il y a un an dans toutes les salles de recherche)
Conservation des données numériques, 13 octobre 2009 12
13. …Encore des sujets
d’inquiétude
• Le coût très important. La collectivité continuera-t-elle à le supporter ? Quand la BnF
numérise pour 10 M € des documents, la conservation et diffusion lui coûte
aujourd’hui à peu près le double pour les 5 ans suivants
• Si certaines institutions ont aujourd’hui la possibilité de conserver, ce n’est pas le cas
des particuliers qui produisent beaucoup de documents numériques (texte, image,
son, audiovisuel).
– Des sociétés de stockage commencent à faire de la publicité (Webarchive)
– Équivaut à la location de quelques mètres carrés dans un hangar (on ne se préoccupe pas
de la moisissure de vos papiers, cuirs, les objets sont entassés, on les oublie)
– La publication sur des sites communautaires n’est pas la panacée. Les serveurs sont
nettoyés, les sociétés peuvent les fermer du jour au lendemain : perte de blogs, de vidéos…
• Les bibliothèques de dépôt légal du web prennent alors le relais mais n’existent pas dans tous les
pays
– Combien de particuliers organisent bien leurs données : indexation, copies et recopies sur
plusieurs disques durs, vérification régulière des formats lorsqu’on change de logiciels ou de
versions, migrations longues …)
• Société du jetable. De plus, il est beaucoup plus difficile d’envisager la « propriété »
d’un bien dématérialisé, comme un e-book par exemple, d’où les expériences de
location. Le « digital dark age » est malgré tous les efforts institutionnels toujours le
nôtre.
Conservation des données numériques, 13 octobre 2009 13
14. Merci de votre attention
Conservation des données numériques, 13 octobre 2009 14