SlideShare une entreprise Scribd logo
Préservation par la numérisation :
Leçons (is)sues du projet de numérisation
des documents « patrimoniaux » de la
bibliothèque de l’IDEP
Antonin Benoît Diouf
Chef des services de bibliothèque, IDEP
Quatrième congrès mondial de l’Association Internationale Francophone des Bibliothécaires et
Documentalistes (AIFBD) et Réunion satellite de la Section Préservation et conservation (P&C) de l’IFLA
Thème : « Les nouveaux enjeux de la conservation du patrimoine documentaire »
Sierre, Valais, Suisse 15-17 août 2017
Définition
Document patrimonial
« Document qui peut être soit un support sur
lequel est portée une information intelligible
sous forme de mots, de sons ou d'images,
délimitée et structurée de façon tangible ou
logique, ou cette information elle-même, qui
présente un intérêt pour sa valeur artistique,
emblématique, ethnologique, historique,
scientifique ou technologique, notamment des
archives »
(Québec.Thésaurus de l'activité gouvernementale .-
Fiche du terme - Document patrimonial)
2
3http://www.unidep.org/
Objet du projet
Parmi 1100 m2 et
2 kms de linéaires de
documents dans un
sous-sol sujet aux
intempéries, aux agents
de dégradation
biologique, poussière,
humidité, etc.
Mémoire méconnue de
l’histoire économique
de l’Afrique post-
indépendante. =====>
Collection
« souterraine » au sens
propre comme au
figuré, constituée
depuis 1963
4
Documents nationaux conservés
5
Plan du sous-sol
Salle 5 Périodiques. Documents/pays. Archives
institutionnelles.
6
Objectifs du projet
Numérisation de la
collection des documents
produits par l’IDEP et ses
pays membres et
constituée depuis la
création de la bibliothèque
de l’institut, dans une
optique d’ archivage et de
diffusion à large échelle
(Web, notamment).
Numérisation qui permet
aussi la préservation des
documents originaux,
notamment en évitant
autant que faire se peut,
leur manipulation
physique et obéit enfin à
un objectif de
conservation prenant en
compte la Fidélité au
document original.
7
Les règles de prise de vue obéissent à ces différents objectifs susmentionnés
Phase 1 :
Etape préliminaire
8
• Identifier qualitativement et quantitativement (nombre
de titres et de pages) les documents concernés par la
numérisation
• Regrouper les documents selon leur provenance et lieu
de publication (pays, IDEP)
• Conditionner les documents pour la numérisation :
dépoussiérage, nettoyage, remise en forme physique,…
• Pilonner les documents hors d’usage ou en plusieurs
exemplaires pour libérer de l’espace de stockage
• Répertorier les documents dans un bordereau en les
listant par titre, auteur, date de publication, état de
conservation, emplacement physique, etc.
Inventaire
9
06 mois, juillet 2016-janvier 2017
Bordereau => Excel
10Excel => data mining manuel => statistiques suivantes
Pour chaque boîte de documents inventoriée
Importance matérielle &
Répartition géographique
Zones régionales
couvertes
Nombre de pays Nombre
titres
Nombre
pages
IDEP & Afrique général
(documents
transversaux )
1 400 47 000 p.
Afrique du nord 07 900 94 000 p.
Afrique de l'ouest 14 1 500 64 000 p.
Afrique centrale 07 400 73 500 p.
Afrique de l'est 10 800 46 300 p.
Afrique australe 11 700 191 000 p.
Répartition par titres : environ 5 700 titres & par pages environ 520 000 pages pour 49
pays identifiés, excepté : Cap-Vert, Comores, Guinée équatoriale, Sao Tomé-et-Principe et
Soudan du Sud
11
IDEP & Afrique
général
9% Afrique de l'est
13%
Afrique australe
14%
Afrique
centrale
9%
Afrique du nord
18%
Afrique de l'ouest
37%
520 000 pages
IDEP & Afrique
général
24%
Afrique du nord
16%
Afrique de
l'ouest
27%
Afrique centrale
7%
Afrique de l'est
13%
Afrique australe
13%
5 700 titres
Pages & Titres à numériser par
région en pourcentage
12
0
100
200
300
400 Annéedepublication
1922
1947
1949
1951
1953
1955
1957
1959
1961
1963
1965
1967
1969
1971
1973
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
1995
1997
1999
2001
2003
2005
2007
2009
Nombre de titres par année de publication
(1922 – 2009)
13
1801
478 422 383 295 267 257 192 188 156 77 20
Nombre de titres par sujet
Economie
40%
Agriculture
11%
Population
9%
Planification
8%
Statistiques
7%
Education
6%
Industrie
6%
Finances
4%
Commerce
4%
Emploi &
Travail
3%
Administration
2%
14
• Ce sont des documents qui, vu leur âge, leur forme de
brochage et de reliage, leur format, et/ou leur condition
de conservation qui a engendré un certain nombre de
dégradations,… nécessitent une préparation préalable
en vue de faciliter et d’optimiser leur numérisation.
• Leur numérisation se fait à part après que ces
procédures soient édictées et appliquées au besoin au
cas par cas.
• Ne concerne pas la totalité du fonds documentaire qui
est en majorité bien conservée et « facile » à être
numérisée.
Procédures et consignes édictées
pour une partie des documents
15
en fonction de leurs spécificités physiques et de leur état de conservation
Documents cornés ou courbés
Solution possible : aplatir les documents en les
pressant après avec un matériel lourd par-dessus
ou s’il s’agit d’un rangement vertical, les presser
en étau après les avoir fixé dans un contenant
solide et rigide. Il devra aussi être préalablement
désagrafé. Se posera alors la question du
reconditionnement à terme. 16
Problème :
document tordu ou corné en plus
d’être. De plus, ce document est
agrafé de multiples fois sur le côté
vertical. Avec les courbures
importantes, il est impossible de
tourner les pages sans les déchirer
Documents volumineux
Solution en cas d’épaisseur de volume trop importante :
débrochage ou déliage et scannage par feuille. S’il y a un double du document, tant
mieux on peut sacrifier cet exemplaire double.
Si exemplaire unique : il faudra le numériser avec un scanner de livre patrimonial
avec balance permettant de le numériser sans le dérelier. (Diapo 35 & 38)
17
18
Documents à reliure
spéciales
Ce livre rare fait 8 cm d’épaisseur et les
pages sont maintenues par une dizaine
d’axes en plastique maintenue entre eux
par une barre en plastique
Solution possible : Dégrafer le
document et numériser feuilles
volantes et refaire la reliure à la
fin.
Ou utiliser un scanner
patrimonial avec plateaux de
type Roberval
Problème : l’aplatissement du document
risque de détruire le document
Documents agrafés (1)
Problème : Agrafes rouillées avec
l’âge portent atteinte à l’intégrité
du document. A manipuler avec
précaution au moment du
scannage. Feuilles risquent de se
détacher ou déchirer en tournant
les pages.
De fait 2 options pour la solution :
- Dégrafer et utiliser un scanner à
défilement
- Laisser en l’état et numériser
manuellement avec scanner
patrimonial
19
Documents agrafés (2)
Problème : Agrafes rouillées avec
l’âge portent atteintes à l’intégrité
du document. Ici nombre assez
élevé d’agrafes qui se suivent
Solution possible : Vu que le
document n’est pas volumineux,
essayer de plier la couverture avec
précaution au-delà de la bordure
droite des agrafes pour pouvoir
mettre le document sous le capot
ou la vitre du scanner
20
Documents avec pages intercalées
- La page intercalée ne fait pas partie de la pagination du document. La copie
numérique doit être conforme à l’original donc ===> Vérifier si le support volant est
placé au bon endroit ou vérifier si sa numérisation est sans intérêt !
- S’il est bien placé, se réfère-t-il à la page de gauche ou droite ? En fonction, il faut
donner les instructions au prestataire quant à l’ordre des vues (ici 3 vues mono
page seront constituées)
- L’ordre des vues devra respecter les consignes que nous avons données en tant
que client (fichier de récolement)
21
Documents avec planche grand format
La surface à numériser est
supérieure à la zone de capture du
scanner (ex : format double A3 si
scanner patrimonial de type
Copibook)
Numériser en plusieurs prises de vues (en Z)
en suivant le sens de la lecture du document
et reconstituer la vue d’ensemble après.
Laisser une zone de recouvrement à chaque
prise de vue de façon à reconstituer
facilement la vue d’ensemble.
22
23
Documents avec images transparentes
Problème : Lorsque les
papiers sont très fins,
l’image constituée restituera
les encres du verso ou celles
de la page adjacente.
Solution : Insérer un support opaque coloré sous la page à numériser
(canson de couleur neutre mat, gris, blanc ou noir) pour annihiler cet effet.
La phase préalable de tests avec différents cansons permettra de retenir le
choix définitif.
24
Documents altérés
Problème : documents ayant
subi un dégât des eaux ou de
l’humidité
Solution : même si le document a juste été imprimé avec quelques nuances de
couleurs (grisés, bleutés), la numérisation en couleurs de cette couverture
permettra de restituer un strict « fac-similé » de cet orignal très altéré. La
numérisation en couleurs permettra au futur internaute de discerner au mieux les
informations occultées par les tâches d’humidité et outrages du temps.
25
Colorimétrie : pourquoi une numérisation en 256
niveaux de gris et pas en mode binaire ?
25
D’un strict point de vue «esthétique»,
on privilégie souvent le mode binaire
(ci-dessous) au mode niveaux de gris
(ci-dessus). On peut retenir ce mode
colorimétrique lorsque l’on numérise
des documents très récents constitués
avec une impression de qualité sur un
papier bien conservé depuis son
origine.
Si le document comprend des illustrations en
nuances de gris ou à fortiori en couleurs, le
mode binaire doit être proscrit car on perd
dans ce cas toutes les nuances de gris. Ci-
dessous, que l’on constitue une conversion en
mode « binaire » avec un niveau de seuillage
bas ou haut, le résultat ne sera pas
satisfaisant car on aura perdu des
informations essentielles.
26
Documents avec photos en nuances de gris
Comme vu précédemment, le mode
colorimétrique « binaire » devra être proscrit
dès qu’il y aura des illustrations (photos,
schémas à traits fins qui risquent de
disparaitre lors de la conversion en « binaire).
Pour un même document, si toutes les
illustrations sont en nuances de gris ou
certaines en couleurs, plusieurs choix
pourront être retenus :
- Numériser tout le document en couleurs :
 Avantage : cela sera plus « esthétique »,
plus proche de l’original car cela restituera
le jaunissement du papier et les moindres
annotations en couleurs (ajouts
manuscrits en rouge, etc…)
 Inconvénient : poids total des images
- Numériser certaines pages en nuances de
gris et d’autres en couleurs :
 Avantage : poids total des images optimisé
 Inconvénient : il n’y aura pas de cohérence
« esthétique » lors de la future consultation
de tous les PDF sur internet
26
Mode « Niveaux de gris »
Mode « Binaire »
Image originale
Pages de couverture
Scanner les couvertures en couleur pour
un rendu de leur teinte d’origine, même
si le contenu textuel est numérisé en
niveau de gris
27
En résumé
But de la préparation 28
29
Phase 2 :
Etape de numérisation
30
Cahier des charges
Cahier des
charges en
07 points
31
Outsourcing & choix du prestataire
• 17 soumissionnaires
• 3 présélectionnés ; 1 final
En fonction des offres
techniques & financières.
***
Trouver un prestataire assurant
l’équilibre entre meilleure qualité de
prestation et moindre coût.
32
Matériel : typologie & performances
33
34
Matériel : typologie & performances
35
Matériel : typologie & performances
Préparation des documents
36
37
Numérisation pratique
38
Numérisation avec scanner patrimonial
38
Sur un scanner patrimonial, le document reste
immobile durant la prise de vue (pas de traction ou de
défilement dans un chargeur automatique) et les
pages sont tournées manuellement.
Il dispose d’une vitre patrimoniale qui n’est pas
utilisée systématiquement. Dans le cas présent ci-
contre, ce document ne doit pas être désagrafé (pages
non numérotées et risque de perdre l’ordre des pages
et donc l’intégrité, exemplaire unique, etc…), il suffit à
l’opérateur de soulever les pages vers la haut sans
dégrafer avant de numériser la page suivante !
En utilisant la vitre patrimoniale, il sera aisé de
numériser tous les documents reliés en les maintenant
immobiles durant la prise de vue
Nommage de fichiers
• "Des règles de nommage précises sont nécessaires pour
repérer et identifier plus facilement les documents recherchés,
éviter les problèmes lors de transfert et de partage
et permettre leur conservation à moyen et long terme.
• Un nom doit être unique et significatif. Des règles doivent donc
s'appliquer pour permettre à un document d'être reconnu dans
les différents environnements existants et d'être identifiable
(ce qui signifie qu'il n'est pas nécessaire d'ouvrir un document
pour savoir de quoi il s'agit)." (Gonzenbach, 2013)
• S’inspire des spécifications normatives en la matière : Norme
ISO 9660 (fichiers et répertoires avec des noms qui sont lisibles par de
nombreux systèmes d'exploitation. C'est particulièrement utile pour
éviter les surprises désagréables lorsque l'on s'échange des fichiers sans
connaître la machine de destination ou quand on veut graver un CD
lisible sur Mac et PC)
39
40
Nommage de fichiers
40
Comme le montre le cas ci-contre (collection du Nigéria), cette boîte possède
un identifiant unique : « S5023 »
Si dans cette boîte se trouvent 15 documents, AVANT LA NUMERISATION,
chacun d’entre eux est identifié physiquement au crayon à papier par un
numéro séquentiel sur 3 digits (Ex : S5023_012 pour le 12ème document).
Remarque : 3 digits suffisent car il ne peut y avoir plus de 999 documents
distincts (objets documentaires) dans cette boite.
Les images seront donc nommées :
NIG_S5023_001_001.TIF à NIG_S5023_001_032.TIF pour le premier
document (revue de 32 pages)
NIG_S5023_002_001.TIF à NIG_S5023_002_450.TIF pour le second
document (livre épais de 450 pages)
EN CONCLUSION : si chaque document (OBJET) est bien identifié de
manière unique, il ne pourra pas y avoir 2 fichiers image portant le
même nom !
Jusqu’à présent, la majeure partie des documents relatifs à un pays ont été conditionnés dans des boîtes
d’archives
41
42
Famille de fichiers
• Pour archivage à long terme :
TIFF non compressé en niveau de gris
Via JPEG
compressé
• Pour consultation : PDF avec OCR
(indexation plain-texte).
Restitution des images JPEG en une unité logique et documentaire
en les transformant en un PDF.
43
43
………
Famille de fichiers
Famille de fichiers d’ARCHIVAGE
TIFF non compressé
300 dpi, RVB ou NG
100 fichiers « image » livrés
Poids total de 2,54 Go si num en RVB
Famille de fichiers de CONSULTATION
JPEG échelle 7
300 dpi, RVB ou NG
100 fichiers « image » livrés
Poids total de 250 Mo si num en RVB
Famille de fichiers de CONSULTATION
JPEG échelle 7
Résolution réduite à 200 dpi
PDF = 1 fichier unique comprenant 100 JPEG
Poids total < 250 Mo si on réduit résolution et si
on augmente la compression des JPEG
………
Exemple d’une revue constituée de 100 pages
Famille de fichiers numériques
Points à prendre en compte dans le choix des formats de
fichiers :
• Toujours dissocier la livraison des fichiers d’archivage
avec ceux de consultation
• L’estimation des poids de fichiers vue avant
• Taux de compression : si trop élevé, l’image devient
dégradée visuellement et fait apparaitre des artefacts liés à
la compression (voir visuels Diapo suivante)
• L’ensemble de ces aspects doit être étudié en amont du
projet pour bien mesurer les impacts financiers. Il faut
notamment dissocier les problématiques de sauvegarde
des fichiers d’archivage avec la problématique de
l’hébergement des fichiers de consultation qui devront être
accessibles 24h /24, 7 jours/7 44
45
Compression JPEG
45
Compression minimum
Compression moyenne
Compression excessive
Calcul taille des fichiers numériques
46
1 page A4 en TIFF non
compressé = 25Mo
47
Calcul taille des fichiers numériques
1 page A4 en TIFF non
compressé = 08Mo
Supports de stockage
48
• Disques durs externes en Téraoctets (3 disques
au minimum pour le projet) pour l’archivage en
format TIFF non compressé.
• Option de Disques Solid State Drive (SSD ou
disques électroniques) si possible. Beaucoup plus
performants en termes de rapidité et de réactivité
que les disques mécaniques classiques.
• Suivant l’environnement dont nous disposons en
interne, l’évaluation est faite avec notre Service
informatique pour les supports de stockage à
employer
49
Traitement OCR
49
Lorsque l’on applique un traitement OCR sur des fichiers RVB ou NG (niveaux de gris), la première
phase du logiciel OCR consiste à convertir l’image en binaire avant d’essayer de reconnaitre les
caractères d’imprimerie initialement employés lors de l’impression du livre original.
Les logiciels référents (Fine Reader, Omnipage, …) disposent d’algorithmes sophistiqués qui
évoluent au fil des années.
taux de reconnaissance OCR très variable.
• Dans le premier cas ci-dessus  scan et conversion en binaire de qualité = 100% du texte a été
reconnu
• Dans le second bas, conversion en binaire « trop contrastée », trop peu de mots ont été reconnus
!!!
• Plateforme dédiée fournie par le prestataire
• Accord sur un minimum de métadonnées de
base : titre, auteurs, date, sujets, pays :
(Format Dublin Core)
• Export des documents PDF vers notre dépôt
institutionnel sous DSpace avec
enrichissement de la description des notices à
ce niveau (Dublin Core) 50
Contrôle de qualité
• Prise de vue : résolution (>= 300 dpi), mode (NG & RVB),
formats, cadrage (marge & inclinaison)
• Respect pagination
• Respect de la quantité de titres et pages prévus pour chaque
lot (Pays)
• Nomenclature de nommage des fichiers
• Pages particulières (illustrations, intercalaires, dépliants,
etc.)
• Famille des fichiers
contrôle visuel par échantillon de la qualité des images, de
l’indexation et de la cohérence du document numérique par
rapport au document original  logiciel XnView pour ce
visionnage (par vignettes)
Importance de la fiche de récolement indispensable ici
51
52
Contrôle de qualité :
fiche de récolement sous Excel
53
Phase 3 :
Diffusion &
Dissémination
• Constitution d’une collection de documents
numériques en guise de mémoire continentale
et conservée pour les générations futures de
décideurs africains
• Présentation de la collection dans les espaces
de discussion scientifiques appropriés
(conférences, revues professionnelles et
scientifiques)
54
Finalité
Bibliothèque numérique portable via des supports
électroniques physiques (DVD, Clefs USB, liseuses…)
• pour chaque pays membres de l’institut avec les
documents de ce pays (relais de diffusion :
bibliothèques nationales et structures assimilées
ou bibliothèques universitaires et de recherche)
• pour les Partenaires de l’institut, etc.
55
Hors-ligne
The African Economic
Development & Planning
Library
56
En ligne
Valorisation
• Communication scientifique : congrès,
conférences,…
• Publication de documents secondaires
sur cette collection
• Articles de revues
• Expositions virtuelles dans des espaces
dédiés y compris les médias sociaux
• …
une Histoire socio-économique africaine à raconter et à proposer
comme référentiel de plus pour accompagner l’agenda de Développement
57
58
Merci de
votre
attention !
@tonnyben
http://antoninbenoitdiouf.com Août 2017

Contenu connexe

Tendances

Le système d’information de l’entreprise
Le système d’information de l’entrepriseLe système d’information de l’entreprise
Le système d’information de l’entreprise
Lee Schlenker
 
Système d'Information (S.I.) dans l’entreprise
Système d'Information (S.I.) dans l’entrepriseSystème d'Information (S.I.) dans l’entreprise
Système d'Information (S.I.) dans l’entreprise
Communauté d'agglomération du Pays de Grasse
 
Etude d'une application de gestion d'une bibliothèque numérique
Etude d'une application de gestion d'une bibliothèque numérique Etude d'une application de gestion d'une bibliothèque numérique
Etude d'une application de gestion d'une bibliothèque numérique
Georges Amichia
 
Veille technologique : méthode et outils
Veille technologique : méthode et outilsVeille technologique : méthode et outils
Veille technologique : méthode et outilsM-Colette Fauré
 
Implémentation d’un gestionnaire de parc automobile
 Implémentation d’un gestionnaire de parc automobile Implémentation d’un gestionnaire de parc automobile
Implémentation d’un gestionnaire de parc automobile
Afaf MATOUG
 
Rapport de projet odoo
Rapport de projet odooRapport de projet odoo
Rapport de projet odoo
ayoub damir
 
Gestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documentsGestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documents
Jibril Touzi
 
Analyse LMS
Analyse LMSAnalyse LMS
Analyse LMS
FFFOD
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
Lilia Sfaxi
 
Diaporama GED-SAE
Diaporama GED-SAEDiaporama GED-SAE
Diaporama GED-SAE
inforoutes
 
Gestion des documents
Gestion des documentsGestion des documents
Gestion des documents
naziha harrag
 
Structure du rapport d'etat d'avancement doctorat
Structure du rapport d'etat d'avancement doctoratStructure du rapport d'etat d'avancement doctorat
Structure du rapport d'etat d'avancement doctorat
Ikram Benabdelouahab
 
Digitalisation de l'entreprise : un impératif de performance
Digitalisation de l'entreprise : un impératif de performanceDigitalisation de l'entreprise : un impératif de performance
Digitalisation de l'entreprise : un impératif de performanceGCX Conseil
 
Cours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiquesCours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiques
bouchra elabbadi
 
La méthodologie de recherche spécifique au marketing
La méthodologie de recherche spécifique au marketingLa méthodologie de recherche spécifique au marketing
La méthodologie de recherche spécifique au marketing
bouchra elabbadi
 
Enjeux d'intelligence economique
Enjeux d'intelligence economiqueEnjeux d'intelligence economique
Enjeux d'intelligence economiqueRedouane Mouti
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Digital Thursday
 
INTELLIGENCE ECONOMIQUE
INTELLIGENCE ECONOMIQUEINTELLIGENCE ECONOMIQUE
INTELLIGENCE ECONOMIQUE
Babacar LO
 
Les clés de la transformation digitale
Les clés de la transformation digitaleLes clés de la transformation digitale
Les clés de la transformation digitale
Frederic CAVAZZA
 
La GED pour les nuls
La GED pour les nulsLa GED pour les nuls
La GED pour les nuls
Sollan France
 

Tendances (20)

Le système d’information de l’entreprise
Le système d’information de l’entrepriseLe système d’information de l’entreprise
Le système d’information de l’entreprise
 
Système d'Information (S.I.) dans l’entreprise
Système d'Information (S.I.) dans l’entrepriseSystème d'Information (S.I.) dans l’entreprise
Système d'Information (S.I.) dans l’entreprise
 
Etude d'une application de gestion d'une bibliothèque numérique
Etude d'une application de gestion d'une bibliothèque numérique Etude d'une application de gestion d'une bibliothèque numérique
Etude d'une application de gestion d'une bibliothèque numérique
 
Veille technologique : méthode et outils
Veille technologique : méthode et outilsVeille technologique : méthode et outils
Veille technologique : méthode et outils
 
Implémentation d’un gestionnaire de parc automobile
 Implémentation d’un gestionnaire de parc automobile Implémentation d’un gestionnaire de parc automobile
Implémentation d’un gestionnaire de parc automobile
 
Rapport de projet odoo
Rapport de projet odooRapport de projet odoo
Rapport de projet odoo
 
Gestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documentsGestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documents
 
Analyse LMS
Analyse LMSAnalyse LMS
Analyse LMS
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Diaporama GED-SAE
Diaporama GED-SAEDiaporama GED-SAE
Diaporama GED-SAE
 
Gestion des documents
Gestion des documentsGestion des documents
Gestion des documents
 
Structure du rapport d'etat d'avancement doctorat
Structure du rapport d'etat d'avancement doctoratStructure du rapport d'etat d'avancement doctorat
Structure du rapport d'etat d'avancement doctorat
 
Digitalisation de l'entreprise : un impératif de performance
Digitalisation de l'entreprise : un impératif de performanceDigitalisation de l'entreprise : un impératif de performance
Digitalisation de l'entreprise : un impératif de performance
 
Cours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiquesCours epistémologie outils méthodologiques
Cours epistémologie outils méthodologiques
 
La méthodologie de recherche spécifique au marketing
La méthodologie de recherche spécifique au marketingLa méthodologie de recherche spécifique au marketing
La méthodologie de recherche spécifique au marketing
 
Enjeux d'intelligence economique
Enjeux d'intelligence economiqueEnjeux d'intelligence economique
Enjeux d'intelligence economique
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
INTELLIGENCE ECONOMIQUE
INTELLIGENCE ECONOMIQUEINTELLIGENCE ECONOMIQUE
INTELLIGENCE ECONOMIQUE
 
Les clés de la transformation digitale
Les clés de la transformation digitaleLes clés de la transformation digitale
Les clés de la transformation digitale
 
La GED pour les nuls
La GED pour les nulsLa GED pour les nuls
La GED pour les nuls
 

Plus de Antonin Benoît DIOUF

Digital inclusion in Africa: role of libraries
Digital inclusion in Africa: role of librariesDigital inclusion in Africa: role of libraries
Digital inclusion in Africa: role of libraries
Antonin Benoît DIOUF
 
Somme archivistique issue d'Afrique et d'ailleurs
Somme archivistique issue d'Afrique et d'ailleursSomme archivistique issue d'Afrique et d'ailleurs
Somme archivistique issue d'Afrique et d'ailleurs
Antonin Benoît DIOUF
 
Gestion de l’information documentaire dans le développement de la gouvernance...
Gestion de l’information documentaire dans le développement de la gouvernance...Gestion de l’information documentaire dans le développement de la gouvernance...
Gestion de l’information documentaire dans le développement de la gouvernance...
Antonin Benoît DIOUF
 
Technologies numeriques & Documentation
Technologies numeriques & DocumentationTechnologies numeriques & Documentation
Technologies numeriques & Documentation
Antonin Benoît DIOUF
 
Google Scholar à Mendeley via BibTex
Google Scholar à Mendeley via BibTexGoogle Scholar à Mendeley via BibTex
Google Scholar à Mendeley via BibTex
Antonin Benoît DIOUF
 
Google Scholar à Zotero via BibTex
Google Scholar à Zotero via BibTexGoogle Scholar à Zotero via BibTex
Google Scholar à Zotero via BibTex
Antonin Benoît DIOUF
 
Science ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienneScience ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienne
Antonin Benoît DIOUF
 
IKM_strategies_4sdgs_africa
IKM_strategies_4sdgs_africaIKM_strategies_4sdgs_africa
IKM_strategies_4sdgs_africa
Antonin Benoît DIOUF
 
Libre accès documentation juridique
Libre accès documentation juridiqueLibre accès documentation juridique
Libre accès documentation juridique
Antonin Benoît DIOUF
 
Bibliotheque & Culture scientifique
Bibliotheque & Culture scientifiqueBibliotheque & Culture scientifique
Bibliotheque & Culture scientifique
Antonin Benoît DIOUF
 
Discours sur le Leadership pour les SID
Discours sur le Leadership pour les SIDDiscours sur le Leadership pour les SID
Discours sur le Leadership pour les SID
Antonin Benoît DIOUF
 
Bibliothèque publique & Communauté
Bibliothèque publique & CommunautéBibliothèque publique & Communauté
Bibliothèque publique & Communauté
Antonin Benoît DIOUF
 
Introduction to Digital libraries
Introduction to Digital librariesIntroduction to Digital libraries
Introduction to Digital libraries
Antonin Benoît DIOUF
 
L’open source dans la dynamique du libre accès & de la science ouverte
L’open source dans la dynamique du libre accès & de la science ouverteL’open source dans la dynamique du libre accès & de la science ouverte
L’open source dans la dynamique du libre accès & de la science ouverte
Antonin Benoît DIOUF
 
Identification and contribution of resources for AVLIN:ASKIA
Identification and contribution of resources for AVLIN:ASKIAIdentification and contribution of resources for AVLIN:ASKIA
Identification and contribution of resources for AVLIN:ASKIA
Antonin Benoît DIOUF
 
Guide Invenio : logiciel documentaire
Guide Invenio : logiciel documentaireGuide Invenio : logiciel documentaire
Guide Invenio : logiciel documentaire
Antonin Benoît DIOUF
 
CollectiveAccess : Tutoriel
CollectiveAccess : TutorielCollectiveAccess : Tutoriel
CollectiveAccess : Tutoriel
Antonin Benoît DIOUF
 
Présentation d'IDEP Document Server à ICADLA 3
Présentation d'IDEP Document Server à ICADLA 3Présentation d'IDEP Document Server à ICADLA 3
Présentation d'IDEP Document Server à ICADLA 3Antonin Benoît DIOUF
 

Plus de Antonin Benoît DIOUF (20)

Digital inclusion in Africa: role of libraries
Digital inclusion in Africa: role of librariesDigital inclusion in Africa: role of libraries
Digital inclusion in Africa: role of libraries
 
Somme archivistique issue d'Afrique et d'ailleurs
Somme archivistique issue d'Afrique et d'ailleursSomme archivistique issue d'Afrique et d'ailleurs
Somme archivistique issue d'Afrique et d'ailleurs
 
Gestion de l’information documentaire dans le développement de la gouvernance...
Gestion de l’information documentaire dans le développement de la gouvernance...Gestion de l’information documentaire dans le développement de la gouvernance...
Gestion de l’information documentaire dans le développement de la gouvernance...
 
Technologies numeriques & Documentation
Technologies numeriques & DocumentationTechnologies numeriques & Documentation
Technologies numeriques & Documentation
 
Google Scholar à Mendeley via BibTex
Google Scholar à Mendeley via BibTexGoogle Scholar à Mendeley via BibTex
Google Scholar à Mendeley via BibTex
 
Google Scholar à Zotero via BibTex
Google Scholar à Zotero via BibTexGoogle Scholar à Zotero via BibTex
Google Scholar à Zotero via BibTex
 
Science ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienneScience ouverte en Afro-Francophonie subsaharienne
Science ouverte en Afro-Francophonie subsaharienne
 
IKM_strategies_4sdgs_africa
IKM_strategies_4sdgs_africaIKM_strategies_4sdgs_africa
IKM_strategies_4sdgs_africa
 
Libre accès documentation juridique
Libre accès documentation juridiqueLibre accès documentation juridique
Libre accès documentation juridique
 
Bibliotheque & Culture scientifique
Bibliotheque & Culture scientifiqueBibliotheque & Culture scientifique
Bibliotheque & Culture scientifique
 
Discours sur le Leadership pour les SID
Discours sur le Leadership pour les SIDDiscours sur le Leadership pour les SID
Discours sur le Leadership pour les SID
 
Bibliothèque publique & Communauté
Bibliothèque publique & CommunautéBibliothèque publique & Communauté
Bibliothèque publique & Communauté
 
Introduction to Digital libraries
Introduction to Digital librariesIntroduction to Digital libraries
Introduction to Digital libraries
 
L’open source dans la dynamique du libre accès & de la science ouverte
L’open source dans la dynamique du libre accès & de la science ouverteL’open source dans la dynamique du libre accès & de la science ouverte
L’open source dans la dynamique du libre accès & de la science ouverte
 
Identification and contribution of resources for AVLIN:ASKIA
Identification and contribution of resources for AVLIN:ASKIAIdentification and contribution of resources for AVLIN:ASKIA
Identification and contribution of resources for AVLIN:ASKIA
 
Guide Invenio : logiciel documentaire
Guide Invenio : logiciel documentaireGuide Invenio : logiciel documentaire
Guide Invenio : logiciel documentaire
 
Panorama de sources de données
Panorama de sources de donnéesPanorama de sources de données
Panorama de sources de données
 
Veille informationnelle
Veille informationnelleVeille informationnelle
Veille informationnelle
 
CollectiveAccess : Tutoriel
CollectiveAccess : TutorielCollectiveAccess : Tutoriel
CollectiveAccess : Tutoriel
 
Présentation d'IDEP Document Server à ICADLA 3
Présentation d'IDEP Document Server à ICADLA 3Présentation d'IDEP Document Server à ICADLA 3
Présentation d'IDEP Document Server à ICADLA 3
 

Préservation par la numérisation

  • 1. Préservation par la numérisation : Leçons (is)sues du projet de numérisation des documents « patrimoniaux » de la bibliothèque de l’IDEP Antonin Benoît Diouf Chef des services de bibliothèque, IDEP Quatrième congrès mondial de l’Association Internationale Francophone des Bibliothécaires et Documentalistes (AIFBD) et Réunion satellite de la Section Préservation et conservation (P&C) de l’IFLA Thème : « Les nouveaux enjeux de la conservation du patrimoine documentaire » Sierre, Valais, Suisse 15-17 août 2017
  • 2. Définition Document patrimonial « Document qui peut être soit un support sur lequel est portée une information intelligible sous forme de mots, de sons ou d'images, délimitée et structurée de façon tangible ou logique, ou cette information elle-même, qui présente un intérêt pour sa valeur artistique, emblématique, ethnologique, historique, scientifique ou technologique, notamment des archives » (Québec.Thésaurus de l'activité gouvernementale .- Fiche du terme - Document patrimonial) 2
  • 4. Objet du projet Parmi 1100 m2 et 2 kms de linéaires de documents dans un sous-sol sujet aux intempéries, aux agents de dégradation biologique, poussière, humidité, etc. Mémoire méconnue de l’histoire économique de l’Afrique post- indépendante. =====> Collection « souterraine » au sens propre comme au figuré, constituée depuis 1963 4 Documents nationaux conservés
  • 5. 5 Plan du sous-sol Salle 5 Périodiques. Documents/pays. Archives institutionnelles.
  • 6. 6
  • 7. Objectifs du projet Numérisation de la collection des documents produits par l’IDEP et ses pays membres et constituée depuis la création de la bibliothèque de l’institut, dans une optique d’ archivage et de diffusion à large échelle (Web, notamment). Numérisation qui permet aussi la préservation des documents originaux, notamment en évitant autant que faire se peut, leur manipulation physique et obéit enfin à un objectif de conservation prenant en compte la Fidélité au document original. 7 Les règles de prise de vue obéissent à ces différents objectifs susmentionnés
  • 8. Phase 1 : Etape préliminaire 8
  • 9. • Identifier qualitativement et quantitativement (nombre de titres et de pages) les documents concernés par la numérisation • Regrouper les documents selon leur provenance et lieu de publication (pays, IDEP) • Conditionner les documents pour la numérisation : dépoussiérage, nettoyage, remise en forme physique,… • Pilonner les documents hors d’usage ou en plusieurs exemplaires pour libérer de l’espace de stockage • Répertorier les documents dans un bordereau en les listant par titre, auteur, date de publication, état de conservation, emplacement physique, etc. Inventaire 9 06 mois, juillet 2016-janvier 2017
  • 10. Bordereau => Excel 10Excel => data mining manuel => statistiques suivantes Pour chaque boîte de documents inventoriée
  • 11. Importance matérielle & Répartition géographique Zones régionales couvertes Nombre de pays Nombre titres Nombre pages IDEP & Afrique général (documents transversaux ) 1 400 47 000 p. Afrique du nord 07 900 94 000 p. Afrique de l'ouest 14 1 500 64 000 p. Afrique centrale 07 400 73 500 p. Afrique de l'est 10 800 46 300 p. Afrique australe 11 700 191 000 p. Répartition par titres : environ 5 700 titres & par pages environ 520 000 pages pour 49 pays identifiés, excepté : Cap-Vert, Comores, Guinée équatoriale, Sao Tomé-et-Principe et Soudan du Sud 11
  • 12. IDEP & Afrique général 9% Afrique de l'est 13% Afrique australe 14% Afrique centrale 9% Afrique du nord 18% Afrique de l'ouest 37% 520 000 pages IDEP & Afrique général 24% Afrique du nord 16% Afrique de l'ouest 27% Afrique centrale 7% Afrique de l'est 13% Afrique australe 13% 5 700 titres Pages & Titres à numériser par région en pourcentage 12
  • 14. 1801 478 422 383 295 267 257 192 188 156 77 20 Nombre de titres par sujet Economie 40% Agriculture 11% Population 9% Planification 8% Statistiques 7% Education 6% Industrie 6% Finances 4% Commerce 4% Emploi & Travail 3% Administration 2% 14
  • 15. • Ce sont des documents qui, vu leur âge, leur forme de brochage et de reliage, leur format, et/ou leur condition de conservation qui a engendré un certain nombre de dégradations,… nécessitent une préparation préalable en vue de faciliter et d’optimiser leur numérisation. • Leur numérisation se fait à part après que ces procédures soient édictées et appliquées au besoin au cas par cas. • Ne concerne pas la totalité du fonds documentaire qui est en majorité bien conservée et « facile » à être numérisée. Procédures et consignes édictées pour une partie des documents 15 en fonction de leurs spécificités physiques et de leur état de conservation
  • 16. Documents cornés ou courbés Solution possible : aplatir les documents en les pressant après avec un matériel lourd par-dessus ou s’il s’agit d’un rangement vertical, les presser en étau après les avoir fixé dans un contenant solide et rigide. Il devra aussi être préalablement désagrafé. Se posera alors la question du reconditionnement à terme. 16 Problème : document tordu ou corné en plus d’être. De plus, ce document est agrafé de multiples fois sur le côté vertical. Avec les courbures importantes, il est impossible de tourner les pages sans les déchirer
  • 17. Documents volumineux Solution en cas d’épaisseur de volume trop importante : débrochage ou déliage et scannage par feuille. S’il y a un double du document, tant mieux on peut sacrifier cet exemplaire double. Si exemplaire unique : il faudra le numériser avec un scanner de livre patrimonial avec balance permettant de le numériser sans le dérelier. (Diapo 35 & 38) 17
  • 18. 18 Documents à reliure spéciales Ce livre rare fait 8 cm d’épaisseur et les pages sont maintenues par une dizaine d’axes en plastique maintenue entre eux par une barre en plastique Solution possible : Dégrafer le document et numériser feuilles volantes et refaire la reliure à la fin. Ou utiliser un scanner patrimonial avec plateaux de type Roberval Problème : l’aplatissement du document risque de détruire le document
  • 19. Documents agrafés (1) Problème : Agrafes rouillées avec l’âge portent atteinte à l’intégrité du document. A manipuler avec précaution au moment du scannage. Feuilles risquent de se détacher ou déchirer en tournant les pages. De fait 2 options pour la solution : - Dégrafer et utiliser un scanner à défilement - Laisser en l’état et numériser manuellement avec scanner patrimonial 19
  • 20. Documents agrafés (2) Problème : Agrafes rouillées avec l’âge portent atteintes à l’intégrité du document. Ici nombre assez élevé d’agrafes qui se suivent Solution possible : Vu que le document n’est pas volumineux, essayer de plier la couverture avec précaution au-delà de la bordure droite des agrafes pour pouvoir mettre le document sous le capot ou la vitre du scanner 20
  • 21. Documents avec pages intercalées - La page intercalée ne fait pas partie de la pagination du document. La copie numérique doit être conforme à l’original donc ===> Vérifier si le support volant est placé au bon endroit ou vérifier si sa numérisation est sans intérêt ! - S’il est bien placé, se réfère-t-il à la page de gauche ou droite ? En fonction, il faut donner les instructions au prestataire quant à l’ordre des vues (ici 3 vues mono page seront constituées) - L’ordre des vues devra respecter les consignes que nous avons données en tant que client (fichier de récolement) 21
  • 22. Documents avec planche grand format La surface à numériser est supérieure à la zone de capture du scanner (ex : format double A3 si scanner patrimonial de type Copibook) Numériser en plusieurs prises de vues (en Z) en suivant le sens de la lecture du document et reconstituer la vue d’ensemble après. Laisser une zone de recouvrement à chaque prise de vue de façon à reconstituer facilement la vue d’ensemble. 22
  • 23. 23 Documents avec images transparentes Problème : Lorsque les papiers sont très fins, l’image constituée restituera les encres du verso ou celles de la page adjacente. Solution : Insérer un support opaque coloré sous la page à numériser (canson de couleur neutre mat, gris, blanc ou noir) pour annihiler cet effet. La phase préalable de tests avec différents cansons permettra de retenir le choix définitif.
  • 24. 24 Documents altérés Problème : documents ayant subi un dégât des eaux ou de l’humidité Solution : même si le document a juste été imprimé avec quelques nuances de couleurs (grisés, bleutés), la numérisation en couleurs de cette couverture permettra de restituer un strict « fac-similé » de cet orignal très altéré. La numérisation en couleurs permettra au futur internaute de discerner au mieux les informations occultées par les tâches d’humidité et outrages du temps.
  • 25. 25 Colorimétrie : pourquoi une numérisation en 256 niveaux de gris et pas en mode binaire ? 25 D’un strict point de vue «esthétique», on privilégie souvent le mode binaire (ci-dessous) au mode niveaux de gris (ci-dessus). On peut retenir ce mode colorimétrique lorsque l’on numérise des documents très récents constitués avec une impression de qualité sur un papier bien conservé depuis son origine. Si le document comprend des illustrations en nuances de gris ou à fortiori en couleurs, le mode binaire doit être proscrit car on perd dans ce cas toutes les nuances de gris. Ci- dessous, que l’on constitue une conversion en mode « binaire » avec un niveau de seuillage bas ou haut, le résultat ne sera pas satisfaisant car on aura perdu des informations essentielles.
  • 26. 26 Documents avec photos en nuances de gris Comme vu précédemment, le mode colorimétrique « binaire » devra être proscrit dès qu’il y aura des illustrations (photos, schémas à traits fins qui risquent de disparaitre lors de la conversion en « binaire). Pour un même document, si toutes les illustrations sont en nuances de gris ou certaines en couleurs, plusieurs choix pourront être retenus : - Numériser tout le document en couleurs :  Avantage : cela sera plus « esthétique », plus proche de l’original car cela restituera le jaunissement du papier et les moindres annotations en couleurs (ajouts manuscrits en rouge, etc…)  Inconvénient : poids total des images - Numériser certaines pages en nuances de gris et d’autres en couleurs :  Avantage : poids total des images optimisé  Inconvénient : il n’y aura pas de cohérence « esthétique » lors de la future consultation de tous les PDF sur internet 26 Mode « Niveaux de gris » Mode « Binaire » Image originale
  • 27. Pages de couverture Scanner les couvertures en couleur pour un rendu de leur teinte d’origine, même si le contenu textuel est numérisé en niveau de gris 27
  • 28. En résumé But de la préparation 28
  • 29. 29 Phase 2 : Etape de numérisation
  • 30. 30
  • 31. Cahier des charges Cahier des charges en 07 points 31
  • 32. Outsourcing & choix du prestataire • 17 soumissionnaires • 3 présélectionnés ; 1 final En fonction des offres techniques & financières. *** Trouver un prestataire assurant l’équilibre entre meilleure qualité de prestation et moindre coût. 32
  • 33. Matériel : typologie & performances 33
  • 34. 34 Matériel : typologie & performances
  • 35. 35 Matériel : typologie & performances
  • 38. 38 Numérisation avec scanner patrimonial 38 Sur un scanner patrimonial, le document reste immobile durant la prise de vue (pas de traction ou de défilement dans un chargeur automatique) et les pages sont tournées manuellement. Il dispose d’une vitre patrimoniale qui n’est pas utilisée systématiquement. Dans le cas présent ci- contre, ce document ne doit pas être désagrafé (pages non numérotées et risque de perdre l’ordre des pages et donc l’intégrité, exemplaire unique, etc…), il suffit à l’opérateur de soulever les pages vers la haut sans dégrafer avant de numériser la page suivante ! En utilisant la vitre patrimoniale, il sera aisé de numériser tous les documents reliés en les maintenant immobiles durant la prise de vue
  • 39. Nommage de fichiers • "Des règles de nommage précises sont nécessaires pour repérer et identifier plus facilement les documents recherchés, éviter les problèmes lors de transfert et de partage et permettre leur conservation à moyen et long terme. • Un nom doit être unique et significatif. Des règles doivent donc s'appliquer pour permettre à un document d'être reconnu dans les différents environnements existants et d'être identifiable (ce qui signifie qu'il n'est pas nécessaire d'ouvrir un document pour savoir de quoi il s'agit)." (Gonzenbach, 2013) • S’inspire des spécifications normatives en la matière : Norme ISO 9660 (fichiers et répertoires avec des noms qui sont lisibles par de nombreux systèmes d'exploitation. C'est particulièrement utile pour éviter les surprises désagréables lorsque l'on s'échange des fichiers sans connaître la machine de destination ou quand on veut graver un CD lisible sur Mac et PC) 39
  • 40. 40 Nommage de fichiers 40 Comme le montre le cas ci-contre (collection du Nigéria), cette boîte possède un identifiant unique : « S5023 » Si dans cette boîte se trouvent 15 documents, AVANT LA NUMERISATION, chacun d’entre eux est identifié physiquement au crayon à papier par un numéro séquentiel sur 3 digits (Ex : S5023_012 pour le 12ème document). Remarque : 3 digits suffisent car il ne peut y avoir plus de 999 documents distincts (objets documentaires) dans cette boite. Les images seront donc nommées : NIG_S5023_001_001.TIF à NIG_S5023_001_032.TIF pour le premier document (revue de 32 pages) NIG_S5023_002_001.TIF à NIG_S5023_002_450.TIF pour le second document (livre épais de 450 pages) EN CONCLUSION : si chaque document (OBJET) est bien identifié de manière unique, il ne pourra pas y avoir 2 fichiers image portant le même nom ! Jusqu’à présent, la majeure partie des documents relatifs à un pays ont été conditionnés dans des boîtes d’archives
  • 41. 41
  • 42. 42 Famille de fichiers • Pour archivage à long terme : TIFF non compressé en niveau de gris Via JPEG compressé • Pour consultation : PDF avec OCR (indexation plain-texte). Restitution des images JPEG en une unité logique et documentaire en les transformant en un PDF.
  • 43. 43 43 ……… Famille de fichiers Famille de fichiers d’ARCHIVAGE TIFF non compressé 300 dpi, RVB ou NG 100 fichiers « image » livrés Poids total de 2,54 Go si num en RVB Famille de fichiers de CONSULTATION JPEG échelle 7 300 dpi, RVB ou NG 100 fichiers « image » livrés Poids total de 250 Mo si num en RVB Famille de fichiers de CONSULTATION JPEG échelle 7 Résolution réduite à 200 dpi PDF = 1 fichier unique comprenant 100 JPEG Poids total < 250 Mo si on réduit résolution et si on augmente la compression des JPEG ……… Exemple d’une revue constituée de 100 pages
  • 44. Famille de fichiers numériques Points à prendre en compte dans le choix des formats de fichiers : • Toujours dissocier la livraison des fichiers d’archivage avec ceux de consultation • L’estimation des poids de fichiers vue avant • Taux de compression : si trop élevé, l’image devient dégradée visuellement et fait apparaitre des artefacts liés à la compression (voir visuels Diapo suivante) • L’ensemble de ces aspects doit être étudié en amont du projet pour bien mesurer les impacts financiers. Il faut notamment dissocier les problématiques de sauvegarde des fichiers d’archivage avec la problématique de l’hébergement des fichiers de consultation qui devront être accessibles 24h /24, 7 jours/7 44
  • 46. Calcul taille des fichiers numériques 46 1 page A4 en TIFF non compressé = 25Mo
  • 47. 47 Calcul taille des fichiers numériques 1 page A4 en TIFF non compressé = 08Mo
  • 48. Supports de stockage 48 • Disques durs externes en Téraoctets (3 disques au minimum pour le projet) pour l’archivage en format TIFF non compressé. • Option de Disques Solid State Drive (SSD ou disques électroniques) si possible. Beaucoup plus performants en termes de rapidité et de réactivité que les disques mécaniques classiques. • Suivant l’environnement dont nous disposons en interne, l’évaluation est faite avec notre Service informatique pour les supports de stockage à employer
  • 49. 49 Traitement OCR 49 Lorsque l’on applique un traitement OCR sur des fichiers RVB ou NG (niveaux de gris), la première phase du logiciel OCR consiste à convertir l’image en binaire avant d’essayer de reconnaitre les caractères d’imprimerie initialement employés lors de l’impression du livre original. Les logiciels référents (Fine Reader, Omnipage, …) disposent d’algorithmes sophistiqués qui évoluent au fil des années. taux de reconnaissance OCR très variable. • Dans le premier cas ci-dessus  scan et conversion en binaire de qualité = 100% du texte a été reconnu • Dans le second bas, conversion en binaire « trop contrastée », trop peu de mots ont été reconnus !!!
  • 50. • Plateforme dédiée fournie par le prestataire • Accord sur un minimum de métadonnées de base : titre, auteurs, date, sujets, pays : (Format Dublin Core) • Export des documents PDF vers notre dépôt institutionnel sous DSpace avec enrichissement de la description des notices à ce niveau (Dublin Core) 50
  • 51. Contrôle de qualité • Prise de vue : résolution (>= 300 dpi), mode (NG & RVB), formats, cadrage (marge & inclinaison) • Respect pagination • Respect de la quantité de titres et pages prévus pour chaque lot (Pays) • Nomenclature de nommage des fichiers • Pages particulières (illustrations, intercalaires, dépliants, etc.) • Famille des fichiers contrôle visuel par échantillon de la qualité des images, de l’indexation et de la cohérence du document numérique par rapport au document original  logiciel XnView pour ce visionnage (par vignettes) Importance de la fiche de récolement indispensable ici 51
  • 52. 52 Contrôle de qualité : fiche de récolement sous Excel
  • 53. 53 Phase 3 : Diffusion & Dissémination
  • 54. • Constitution d’une collection de documents numériques en guise de mémoire continentale et conservée pour les générations futures de décideurs africains • Présentation de la collection dans les espaces de discussion scientifiques appropriés (conférences, revues professionnelles et scientifiques) 54 Finalité
  • 55. Bibliothèque numérique portable via des supports électroniques physiques (DVD, Clefs USB, liseuses…) • pour chaque pays membres de l’institut avec les documents de ce pays (relais de diffusion : bibliothèques nationales et structures assimilées ou bibliothèques universitaires et de recherche) • pour les Partenaires de l’institut, etc. 55 Hors-ligne The African Economic Development & Planning Library
  • 57. Valorisation • Communication scientifique : congrès, conférences,… • Publication de documents secondaires sur cette collection • Articles de revues • Expositions virtuelles dans des espaces dédiés y compris les médias sociaux • … une Histoire socio-économique africaine à raconter et à proposer comme référentiel de plus pour accompagner l’agenda de Développement 57