2. PLAN
Définir la notion de ‘document’
Travail de groupe
Définitions
Approches du document
Exemples
Analyse d’un document
La chaine documentaire
Traitements
Documentaires
Matériels
Le cas de la numérisation
Accès
2
3. Définitions
Définition ISO (International Organisation for
Standardization)
Vocabulaire de la documentation
3
Ensemble formé par un support et une information généralement
enregistré de façon permanente et tel qu’il puisse être lu par l’homme
ou la machine
Ensemble d’un support d’information, quel qu’il soit, des données
enregistrées sur ce support et de leur signification, servant à la
consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de
parfum, tissus, film…Le tout constitue une unité autonome.
4. Approches du document
« Tout est document pourvu qu’il soit le témoin d’un
savoir inscrit dans un système documentaire » Suzanne
Briet 1951
Le vu, le lu, le su (Jean-Michel Salaün)
Le lu : le texte, le contenu, le fond
4
Le vu : la forme, le support
Le su : le medium, l’attention, le système d’échange
5. Approches du document
Le document ne peut être dissocié de ses environnements :
Fond, forme, destination font parti intégrante du
document si celui-ci doit s’inscrire dans un système
(documentaire, d’échanges etc.)
En ce sens le document doit toujours être interrogé pour
ce qu’il est dans ces trois dimensions, et traité en
conséquence :
La forme (description, reproduction, déclinaisons de différents supports etc.)
5
La diffusion (médium)
Le fond (la pertinence du contenu au regard des deux autres dimensions)
6. Qu’est-ce qu’un document ?
Tablette d’argile :
textes juridiques
ou comptables
Rouleau de papyrus :
textes sacrés
13. Approches du document
Approche métier
•
•
Objet porteur d’information, pris indépendamment du support, de la
nature de l’information ou de toute autre caractéristique
A traiter à la fois au niveau de l’objet lui-même et de l’information qu’il
supporte
Remarques
•
•
Les métiers de la gestion de l’information découlent de ces fonctions qui
sont liées aux besoins des organismes
•
14
Un même document peut cumuler plusieurs fonctions
Autres fonctions dans le contexte des bibliothèques de lecture publique :
essentiellement la mise à disposition d’un patrimoine culturel
14. Approches du document
Approches professionnelles :
Document de travail (au sens large)
Tout type de document dès lors qu’il est pertinent pour améliorer la qualité
et l’efficacité du travail des collaborateurs
Durée de vie variable mais le contenu doit rester pertinent par rapport à des
besoins identifiés
Enjeux :
Document patrimonial
15
Le retrouver facilement et rapidement
Le mettre à disposition sur le support qui convient
Valeur généralement historique ; de l’ordre de 3% des documents produits
Durée de vie très longue
Enjeux : le conserver sur le long terme.
15. Approches du document
Approche fonctionnelle :
Document à valeur probante
Durée de vie variable, pouvant faire l’objet d’une réglementation
Valeur de preuve en cas de contrôle ou de contentieux
Enjeux : tracer le document et en garantir l’intégrité pour qu’il garde sa
valeur de preuve
Principales conditions d’exploitation
o
o
16
Technologiques, notamment en fonction du support (papier,
électronique, film…)
Juridiques (droits d’exploitation)
o
Modes d’utilisation (besoins des utilisateurs)
16. Estimation et analyse de besoins
Recherche et collecte d’informations
Sélection, acquisition des documents
Traitement des documents
Traitement matériel :
•Enregistrement du document
•Équipement, reproduction,
conservation (reliure etc.)
Classement
17
Traitement intellectuel :
•Catalogage et indexation
•Analyse, résumé etc.
Enregistrement de
l’information
Diffusion de l’information :
•Prêt
•Mise à disposition des produits secondaires
(catalogue, bibliographies, revue de presse
etc.)
17. Le traitement documentaire
Les différents niveau de traitement du document
Document primaire
o
o
Document secondaire
o
o
Présente un document primaire à partir d’informations extraites
(auteur, titre…) ou créées (mots clés, résumé)
Exemples : notices bibliographiques, bibliographies, catalogues de
bibliothèques, index, répertoires de signets…
Document tertiaire
o
18
Présente une information à caractère original c’est-à-dire lisible par le
lecteur telle que l’auteur l’a écrite
Soumis à une législation régissant les droits d’utilisation et de
reproduction
o
Synthèses réalisées à partir de plusieurs documents
Exemples : encyclopédies, états de l’art…
18. Le traitement documentaire
Typologies des documents primaires
Pourquoi une catégorisation des documents ?
Pour mieux organiser les fonds documentaires. Mais ces systèmes de
catégorisation ont des limites : un livre peut aussi comporter un DVD ; un
texte pourra être à la fois sur support papier (analogique) et électronique
Pour mieux rechercher les documents
Critères de catégorisation courants
Le mode de codage : analogique ou numérique
La nature des informations : juridique, économique, scientifique…
19
Le support : papier, film, magnétique, optique
Le mode de représentation : information textuelle, graphique (image),
sonore
19. Le traitement documentaire
Document secondaire
Composition
Il comporte des informations permettant de décrire le document primaire :
En cas de document électronique ces éléments d’information s ’appellent
les métadonnées (données sur les données)
Usages
La recherche dans un fonds physique ou un système informatique
La prise de connaissance rapide de son contenu pour
20
Ses caractéristiques « objectives » : auteur, titre, date….
Son contenu : mots clés, résumé…
Son mode de gestion (par exemple : en prêt, cote, n° d’exemplaire pour un livre)
Identifier son niveau d’intérêt
S’approprier les informations synthétisées dans le résumé
20. Le traitement documentaire
Exemples de documents secondaires
Catalogue ou fichier bibliographique
Produits documentaires basés sur des documents secondaires
21
Très majoritairement informatisé
Appelé OPAC (online public access catalog) dans les bibliothèques
Règles de description pouvant varier selon les contextes
Exemples à voir : catalogues des bibliothèques de la Ville de Paris, de la
médiathèque de la Cité des sciences, de la BPI, de la BNF…
Revue de presse (à distinguer du panorama de presse)
Liste des nouveautés
Bibliographie
Bulletins de sommaires
21. Le traitement matériel
Ranger et conserver le document
Principes
Distinguer stockage et conservation
Définir le besoin réel et les coûts supportables
La numérisation (dématérialisation) permet de créer un support de
substitution évitant les risques liés à la consultation et la diffusion
des documents
Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/
Techniques
Validées pour le document papier : règles, normes …
En forte évolution pour le document électronique
22
Relèvent plutôt des métiers de l’archivistique
Relèvent plutôt des métiers de l’informatique
22. Le traitement matériel
Document papier et électronique
Document papier
Document électronique
23
Objet matériel, tangible et fini ; accessible directement par les sens
Lien entre la forme et le sens : le support conditionne l’accès au contenu
Objet « immatériel » composé d’unités binaires permettant les traitements
informatiques et lisible par l’intermédiaire d’une machine
Les possibilités liées à l’informatique (liens hypertexte par ex. ) gomment
les limites du document ;
Évolution vers la notion de ressource électronique
Modes de production :
- Documents directement produits sous forme électronique à l’aide de
logiciels (logiciels bureautiques….)
- Documents analogiques (papier…) transformés en documents
électroniques
23. Le cas de la numérisation
Principaux modes de codage numériques
Mode de
codage
alphabétique
(mode texte
ou caractère)
Mode image
bitmap
Type de codage
Codage selon une norme ex.
codage ASCII sur 8 bits
exemple
A : 01000001
a : 01100001
représentation des images
selon une mosaïque de points
représentation selon les
Mode vectoriel éléments géométriques qui les
composent
24
Remarques
- Codage des signes des documents textuels
(caractères, blancs, ponctuation…)
-Fichiers utilisables en recherche et de
faible volume.
- American Standard Code for Information
Interchange
- Fichiers non directement utilisables en
recherche.
- Volumes très importants avant
compression.
Utilisé pour les plans, graphiques.. En CAO et
DAO essentiellement
24.
Processus
Passage d’un support physique à un état dit dématérialisé
Changement de mode de codage : passage d’un mode de codage analogique
à un codage numérique
Information analogique : le signal est continu
Information numérisée : représentée par un échantillon de valeurs du signal
analogique et codé à l’aide de numéraux (0 ou 1)
Caractéristiques techniques
25
Le cas de la numérisation
Ces changements se font par un processus technologique : la numérisation
et à l’aide d’un matériel spécifique : le numériseur (ou scanner)
Le fichier résultant de la numérisation est un fichier bitmap
Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/
25. Le cas de la numérisation
o
o
La capture de l’image
Capture du document par un signal lumineux
analyse de l’intensité lumineuse par un capteur CDD (charged-coupled
device)
-
o
o
une seule analyse pour le noir et blanc
analyse de 3 faisceaux lumineux séparés par un prisme et des filtres rouges,
verts et bleus (RVB) pour des documents en couleur
conversion en signal électrique binaire selon une grille propre au mode
de codage
Production du fichier bitmap
26
26. Le cas de la numérisation
Le mode de traitement des images
RESTITUTION
NUMERISATION
0000000000
0001110000
0010001100
0100000100
1000000010
1111111111
1000000000
1000000000
0100000010
0010000100
0001111000
In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.
Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité
de l’image mais aussi le poids du fichier
Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)
Le mode de compression
La taille de l’image est fonction de ces trois paramètres
27
27. Le cas de la numérisation
Définition et profondeur de l’analyse
(*) Les imprimantes couleur
utilisent le modèle CMJN (cyan,
magenta, jaune et noir) qui est
celui de l’imprimerie
en quadrichromie.
Type d’image
Nbre de
bits/point
avec des niveaux
de gris
couleur analyse
RVB(*)
28
Remarques
2
noir = 1
blanc = 0
utilisé pour le texte
8
256 niveaux
de gris
utilisé pour les documents
iconographiques noir et blanc
3x8
noir et blanc
Valeurs codées
3 x 256 niveaux par
couleur soit 16,4
millions de couleurs
3 couleurs : rouge/vert/bleu
(codage utilisé par les moniteurs et les
téléviseurs)
28. Le cas de la numérisation
Caractéristiques des fichiers bitmap
Caractéristiques générales
o
reproduction à l’identique
o
volume des fichiers très important, ce qui a un impact sur :
o
o
o
le choix des supports de stockage
les possibilités et les temps de transmission par réseau
document non modifiable (pas d’accès au contenu)
Qualité
o
La qualité et la lisibilité du document numérique restitué est variable selon
:
o
o
la résolution retenue
o
29
l’état initial du document
les performances du numériseur (scanner) et le niveau du réglage des contrastes
29. Le cas de la numérisation
La compression des images
Plus une image est de bonne qualité plus elle est lourde. La
compression peut permettre de diminuer fortement le poids d’une
image sans abaisser dans les mêmes proportions la qualité.
Elle permet de réduire la taille des fichiers en supprimant des pixels
ou des couleurs
30
Compression sans perte
Compression avec perte
Les formats engendrant des pertes de données irréversibles sont à
éviter lorsque l’on veut assurer la sauvegarde à long terme des
images
30. Le cas de la numérisation
La compression des images
Codage ligne par ligne puis corrélation des lignes entre elles
es lignes qui se suivent se ressemblent,
n va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre
31
31. Le cas de la numérisation
La compression des images
Format de compression JPEG
codage
compression
restitution
Paramétrage du taux de qualité (0 à 100%)
Pour un taux = 80%) la compression est comprise entre 5 et 10
32
Utilisé pour les images 8 bits et 24 bits
32. Le cas de la numérisation
Les traitements sur les fichiers après numérisation
Mise
en forme de l’image
nettoyage de l’image : élimination des éléments parasites,
détourage, pivotement, redressement
Compression
Opération permettant de réduire le poids du fichier bitmap ce qui
permet de :
limiter les besoins de stockage
faciliter la transmission par réseau
Reconnaissance
33
optique de caractère : OCR
passage d’un fichier bitmap à un fichier codé en ASCII
33. Le cas de la numérisation
O.C.R. (Optical Character Recognition)
Objectif
o
automatisation de la saisie en mode caractère
-
document retraitable, modifiable et indexable par un moteur
réduction de la taille
Processus
o
o
o
o
o
o
o
34
segmentation de l’image du document numérisé
détermination des caractéristiques de chaque caractère
comparaison par rapport à des jeux de police et décision
traitements complémentaires
identification de mots par comparaison avec un dictionnaire
Établissement d’un niveau de confiance pour chaque mot
apprentissage de nouvelles polices de caractères
34. Le cas de la numérisation
Ce qu’il faut faire pour : la recherche plein texte, le surlignage, la
vocalisation page à page, le mode e-book
TopMargin
PrintSpace
BottomMargin
35. Le cas de la numérisation
O.C.R. (Optical Character Recognition)
Attributs génériques
WC : Note de confiance de la reconnaissance de chaque mot, notée de 0 à
1 : 0,1; 0,2 etc.
WD : appartenance à un dictionnaire (true, false)
Le texte affiché peut comporter un certain nombre
d'erreurs.
Il a été généré par O.C.R. Le taux de reconnaissance
obtenu pour ce document est de 92,32 %.
iôU
Repopulation
{Dédié à M. MOT, sénateur)
— Qu'est-ce que tu veux, maman?... Gaston est si
distrait!.
36
Forte dépendance de la structure physique qui
traduit la structure logique du document
original.
36. Le cas de la numérisation
Limites de l’ O.C.R.
Au niveau des caractères
o
o
caractères peu nets ou liés, effets de lignes ou de bandes sur les fax
o
annotations, marques, tâches…
o
tableaux et soulignés
o
écriture manuscrite (ICR, Intelligent Character Recognition)
o
définition insuffisante
Difficultés pour évaluer la qualité réelle du document reconnu
Au niveau du document
o
o
problèmes de contraste
o
37
fonds colorés
Structure complexe
37. Le cas de la numérisation
Les métadonnées
Un document numérique /
électronique, c’est une suite de
fichiers sans lien entre eux
identifiant unique (localisation / identification)
Métadonnées
descriptives
?
•rattacher le document
à l’original /
différentes versions
d’un document
•donner accès à la
copie numérique /
électronique
Métadonnées de
structure
Métadonnées administratives
•rattacher les
fichiers entre eux
•gérer les droits d’accès
•reconstituer la
structure du
document
•gérer la collection, c’est-à-dire
•préserver les informations techniques
nécessaires à la lecture des fichiers
•garantir l ’intégrité des fichiers et le suivi de
leurs éventuelles modifications
38. Le cas de la numérisation
Document objet
L’accès au document
Organisation du fonds physique selon des critères permettant de retrouver
les documents selon un nombre limité de critères ; exemple en BM :
auteur pour les romans, thème/sous-thème pour les documentaires
Nécessité de faire un catalogue pour des recherches selon d’autres critères
A voir : organisation d’une BM et son catalogue en ligne
Document dématérialisé
Recherche automatisée sur des critères prédéfinis organisés selon la
logique des catalogues (logique différente de celle du web)
39
Les éléments de recherche, appelés métadonnées, sont regroupés dans des
notices
Suppose une description préalable (encore faite « à la main »)
Recherche directement dans le document numérique
39. Le cas de la numérisation
L’accès au document
Catalogue
Moteur
40. L’accès au document
Enjeux
La qualité des résultats de recherche
Le coût de traitement
Exemple : de l’ordre de 15 minutes pour la réalisation d’une notice
Evolutions en cours
41
Bruit : documents non pertinents sélectionnées par le moteur de recherche en
réponse à une question
Silence : documents pertinents non sélectionnés par le moteur de recherche
Amélioration des performances des moteurs de recherche sur le texte
« brut » : analyse linguistique du texte
Balisage du texte (tags) pour le structurer en fonction de critères de
recherche (question de l’usage des métadonnées par les moteurs)
Évolution des usages : de la recherche structurée à la recherche plein texte
41. L’accès au document
•
•
•
Recherche en texte intégral
Recherche statistique ou associative
– fréquence du mot à l’intérieur du document
– rareté du mot dans la collection
– longueur du mot trouvé par rapport à la longueur du champ
Recherche linguistique
– exploitation du vocabulaire et de la grammaire
– lemmatisation de l’index
– catégorisation des mots-outils
– extraction d’entités nommées
42. L’accès au document
•
Recherche sémantique : exploitation d’un modèle de connaissance ou référentiel
– extraction terminologique (couplée à l'analyse sémantique)
– détection du contexte global du document
– classification automatique des mots du texte
– expansion de requête
– navigation dans un thésaurus de haut niveau
– calcul des relations entre thèmes (lexicométrie)
– filtrage des thèmes en fonction de leur pertinence
– À voir : http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-del-information-documentation-79361.htm
43
43.
Que peut voir un moteur de recherche dans une
bibliothèque numérique ?
44. Bibliographie
Approche générale
Le pentagone de l'industrialisation de la mémoire - Bloc-notes de Jean-Michel Salaün, 2006,
http://blogues.ebsi.umontreal.ca/jms/index.php/post/2006/11/29/127-le-pentagone-de-lindustrialisation-de-la-memoire
Briet Suzanne, Qu’est-ce que la documentation ?, EDIT, 1951 consultable ici :
http://martinetl.free.fr/suzannebriet/questcequeladocumentation/
Claude Morizio, La recherche d’information, Paris : ADBS, Armand Colin, 2004. (128 :
information documentation)
Guillaud Hubert, Les trois dimensions de l’économie de la publication | La Feuille,
http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-lapublication/
Document numérique
45
Le gestion électronique documentaire / Jean-Yves Prax, Simon Larcher . – 3ème ed. . –
Paris : Dunod, 2004 . Pour cette première approche du document numérique, voir le
chapitre 3 en se limitant aux thèmes abordés en cours.
Notes de l'éditeur
La représentation d’un document :
Document noble, document non noble
Charge symbolique
Charge sémantique
Charge émotionnelle
Introduire la notion de métadonnées, que l’accès au document passe par sa description
L’approche qu’on a un d’un document dépend aussi du traitement qui a été fait de ce document.
Le fonds, s’il n’a pas été classé, inventorié, n’est pris que dans un ensemble flou
S’il est classé, on sait qu’il est composé de parties consacrées à tel ou tel sujet
S’il est inventorié, on sait avec plus ou moins de détails les documents qui le compose
S’il est numérisé on peut savoir le contenu de chaque document.
Analyse d’un document
Sans perte : Les fichiers sont pourvus d'algorithmes de compression, qui réduisent leur taille, mais la restituent sans perte de données, ni en couleurs, ni en pixels.
(IUT Groupe 4)
(JPEG très utilisée en numérisation pour les illustrations)