En prélude à la célébration du Cinquantenaire de l’ESSTIC qui aura lieu du 14 au 16 juin 2023, la Professeure Emmanuelle Bermès et le Professeur Édouard Vasseur de l'École Nationale des Chartes (France) ont donné une communication intitulée: "ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE"
Cette conférence a eu lieu le 18 avril 2023, à l'ESSTIC et s'inscrivait dans le cadre d'un Atelier de formation “Archives, formations en archivistique
et ingénierie du document à l’ère numérique”, Yaoundé
(Cameroun), 17-21 avril 2023
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
1. ARCHIVES ET SOURCES
ÉCRITES : UNE NOUVELLE
CRITIQUE
DOCUMENTAIRE
Emmanuelle Bermès et
Édouard Vasseur
18 avril 2023
Atelier de formation “Archives, formations en archivistique
et ingénierie du document à l’ère numérique”, Yaoundé
(Cameroun), 17-21 avril 2023
2. Plan
Commençons par un cas pratique : le grand débat
national
Quelles leçons retirer de ce cas pratique ?
Revenons à la théorie
Pour finir, le cas des archives du web
4. Explication du contexte
Une crise sociale à la française :
Le gouvernement prend des mesures qui déplaisent à une partie de la
population : passage au 80 km/h sur routes nationales
Tensions autour du prix de l’essence
Une explosion sociale progressive : occupation des ronds points,
manifestations parfois violentes
l’Association des maires ruraux de France lance une opération “cahiers de
doléances”, en référence à la procédure électorale qui a précédé la révolution
française
Réactions du gouvernement :
Mesures financières
Lancement d’un grand débat national : généralisation des cahiers de
doléances devenus citoyens, organisation de réunions publiques, ouverture
d’une plateforme de contributions (double : une avec questions fermées et
une avec questions ouvertes)
5. Les écrits générés et leur utilisation par le gouvernement
Des écrits multiples :
Cahiers citoyens (cahiers papier, mais aussi des mails dedans)
Contributions sur la plateforme du grand débat (2 types de questionnaires)
Questionnaires remplis dans divers lieux
Comptes rendus des réunions d’initiative locale, avec possibilité de les poster en
ligne sur la plate forme
Exemple des cahiers citoyens :
Rassemblés par les préfectures (dans certains cas, envoi des originaux, dans d’autres
cas, numérisation par les mairies avant rematérialisation par les préfectures)
Envoi à la BnF dans sa chaîne de numérisation du livre
Réalisation de transcription du contenu des cahiers avec 3 modalités différentes
(dont transcription vocale)
Exploitation du contenu des transcriptions via une IA par 2 prestataires retenus par
le gouvernement
Réalisation d’une synthèse à destination du politique
6. La question de l’archivage de ce grand débat … et des
recherches entamées
Encore une fois, les cahiers :
Collecte centralisée dans les préfectures (papier voire version numérisée par les
mairies), même si certaines mairies ont gardé les originaux (et si certains ont été
récupérés l’Association des maires ruraux de France)
Collecte par les AN des fichiers numériques générés par la BnF, au milieu du reste :
export de la plateforme, activités de la mission désignée pour gérer ce grand débat,
questionnaires remontés du terrain
Mais problème de l’accès à ces cahiers : quelle communicabilité ? Quelle
description ? Etc.
Mais aussi la question des transcriptions :
Un questionnement des AN : faut-il les archiver ?
Un intérêt très rapide des chercheurs pour ce sujet :
Dans le cadre des annonces du gouvernement de la mise à disposition (mais RGPD &
co)
Des sources alternatives non officielles : sites webs et réseaux sociaux (notamment le
Vrai débat)
8. Qu’il nous faut réfléchir au problème du nommage, à l’heure où
le numérique complexifie les choses
Quelques réflexions :
Y a-t-il un fonds du grand débat ? Si oui, que comprend-il ? Uniquement les
archives de la mission du grand débat ? Ou également tous les cahiers
conservés à droite et à gauche ? Et qui est le producteur de tout cela ?
Ces cahiers constituent-ils une série unique ? Ou au contraire un document
qui correspondrait à l’ensemble des réponses reçues à la question posée par
le gouvernement ?
Comment nommer les différentes avatars numériques de ces cahiers ? Les
numérisations effectués par les mairies et envoyées aux préfectures ? Les
numérisations effectuées par la BnF pour permettre l’exploitation par l’IA ?
Même réflexion sur les transcriptions …
Bref une littérature professionnelle (du moins francophone) encore trop
basée sur le physique :
Nécessité de repasser la grille diplomatique au crible du numérique qui
permet de revenir à son essence
cf. des concepts comme dossiers, registres, fichiers
9. Que l’approche par processus est essentielle dans le processus
d’archivage
Retour sur les transcriptions :
Certes, des objets difficiles à prendre en compte : des fichiers XML dans un
format particulier (ALTO), pas d’unité logique autre que technique (pas
d’unité géographique par exemple)
Mais les contenus qui ont servi à élaborer les synthèses au moyen d’une IA
Mais du coup, ne manque-t-il pas des choses ? :
Quid de l’IA ? Pourtant, c’est via cette IA que les synthèses ont été définies
D’où l’importance de penser aux algorithmes comme objets d’archivage
D’où l’importance de revenir aux fondamentaux :
Les processus
Les interactions entre personnes dont les archives sont la trace
La documentation du processus de production et d’archivage, pour
contextualiser les archives collectées
10. Que la frontière entre nos institutions n’est pas si nette
Cf. les cahiers, toujours :
Choix de la BnF comme prestataire car existence d’une chaîne de numérisation
efficace
Des archives qui se sont senties menacées => campagne de presse
Finalement, une remise par la BnF aux AN, mais dans un état qui reflétait les modes
de travail de la BnF et dont la structuration a dû être reprise par les AN, via de
nombreux traitements techniques
Des approches complémentaires ? :
Arhivage des archives
Archivage du web
Archivage audiovisuel
Nécessaire collaboration sur la préservation de tout cela
11. Que nos disciplines peuvent apporter beaucoup
Revenons sur le cas de la synthèse demandée par le gouvernement :
Cahiers citoyens :
Périmètre incomplet : cahiers non pris en compte (notamment ceux envoyés par
mairies ou préfets au président de la République et renvoyés par la présidence
(annotés par le président) dans les départements
Une reconnaissance de caractères rendue difficile par le caractère manuscrit des
contributions
Exploitation du seul texte, à l’exclusion de toutes les autres informations
disponibles : pages de garde, titres, dates, etc.
Contributions en ligne :
Exploitation des seules réponses fournies par les personnes ayant répondu, à
l’exclusion des titres des contributions
Absence de prise en compte des absences de réponse
En bref, intérêt d’une approche intégrant davantage la diplomatique
13. Dans le monde de l’imprimé :
• adéquation support / contenu
• pas besoin de dispositif de médiation
Dans le monde numérique :
• plusieurs niveaux de granularité
• pas d’adéquation structure physique / logique
=> Leprocessus dedéconstruction ou déstructuration du document
numériqueàtravers 2exemples, lanumérisation et les sites web
Qu’est-cequ’un document numérique?
Titre du document à modifier (affichage → En-tête et pied de page…)
14. La numérisation :
• un fichier image par page
• un fichier texte (OCR) par page
• autres contenus (ex. table des matières ou texte structuré)
Þ Besoin demétadonnées pour restituer lanavigation (dans les pages –
structurephysique/ dans les contenus – structurelogique)
Un site web :
• un fichier HTML par page
• autres contenus (ex. informations de présentation, images…)
Þ Liens hypertexte: aucun marqueur dechangement de«site»(lanotion
desite, donc lastructurelogique, n’existepas techniquement)
2exemples
Titre du document à modifier (affichage → En-tête et pied de page…)
15. Deux concepts posés par Bruno Bachimont dans son ouvrage « Patrimoine
et numérique » (2017)
Reconstruction :
• un document numérique est constitué de 0 et de 1, et de calculs
• programme de lecture (applicatif)
• matériel (terminal)
Þ lafaçon dont ledocument seprésentepeut varier
Réinvention :
• contenus dynamiques (base de donnée, scripts) qui se réagencent
• contenus personnalisés qui varient selon le contexte (localisation, algorithmes)
Þ Lecontenu lui-mêmepeut varier
Reconstruction, réinvention
Titre du document à modifier (affichage → En-tête et pied de page…)
16. Roger T. Pédauque (collectif de recherche au sein du CNRS, 2003-2006) /
JM Salaün Vu, Lu, Su (2012) :
• VU : le document numérique est un objet concret constitué de fichiers,
de données, d’une structure qu’on peut assembler et faire fonctionner avec
un programme.
•LU : le document numérique est un contenu porteur de sens qui peut être
traité par des outils de gestion de la connaissance
• SU : le document numérique est envisagé dans ses fonctions sociales de
trace ou de preuve, son utilité pour communiquer ou pérenniser une
information (<= archives)
Qu’est-cequ’un document numérique?
Aspects théoriques
Titre du document à modifier (affichage → En-tête et pied de page…)
17. Pérennisation de l’information numérique (modèle OAIS) :
• VU : conserver les fichiers, l’information les concernant (formats), les
programmes permettant de les lire, systèmes d’exploitation, matériels…
Migration, émulation si nécessaires
=> Paradoxe du bateau de Thésée
•LU : conserver les informations nécessaires à l’intelligibilité des données
=> Effet pierre de Rosette
• SU : conserver la traçabilité du processus pour garantir l’authenticité du
document
Þ Signature électronique, blockchain, NFT…
Conséquencepour laconservation
Titre du document à modifier (affichage → En-tête et pied de page…)
18. Quand et comment intervenir ?
• intervention en amont / collecte en aval
• conserver les fichiers source / la forme finale de l’information
=> Le cas particulier des archives web
• Pourquoi ? des contenus hautement volatils… qui font l’objet d’un intérêt
mémoriel depuis 1996 (Internet Archive)
• VU : comment archiver les éléments unitaire d’un espace global
d’information ? => collecte automatisée par robots
• LU : quels contenus choisir ? => identification d’un domaine national, de
sites thématiques…
• SU : limites techniques de la collecte => un patrimoine composite dans sa
forme et sa temporalité
Enjeuxdelapérennisation del’information
numérique
Titre du document à modifier (affichage → En-tête et pied de page…)
20. Une archive est la trace d’une activité, mais l’archive web n’est pas le web
du passé, elle n’est pas non plus une trace (la page archivée n’a
potentiellement jamais été vue telle quelle par un usager)
Importance de savoir critiquer les sources web : lire le code, comprendre
comment les sites sont fabriqués, les URL, les redirections…
• pour vérifier l’authenticité d’un contenu web (lutter contre le phishing,
les fake news…)
• pour retracer l’historique des données (citer une source dans le cadre
d’un travail de recherche, vérifier qu’une source n’a pas été altérée)
• pour utiliser les contenus web dans le cadre de nouveaux traitements (IA,
text mining…)
=> Besoin d’une approche diplomatique des sources web (transition EV)
Leweb et lacritiquedel’information
Titre du document à modifier (affichage → En-tête et pied de page…)