Jubilothèque
Zoom sur un projet
cecile.pierre@upmc.fr
Cécile Pierre
Présentation du projet
Contexte institutionnel
Bibliothèque Interuniversitaire
CADIST
Contrat quadriennal 2005-2008
Périmètre
Documents scientifiques du XIXème siècle
4 collections thématiques : physique-chimie,
thèses, géologie régionale, histoire de la géologie
95 000 pages dans le projet initial, 114 500
pages au total avec les compléments ultérieurs
Budget global : 225 000 €
Numériser, pour qui, pourquoi ?
Repérage des documents anciens
Identification de thématiques cohérentes
Par rapport aux missions de la BIUS, à son
histoire, et au contexte documentaire
Par rapport aux publics visés
Critères de sélection
Documents complets et libres de droits
Dédoublonnage par rapport aux réservoirs
connus
Sélection scientifique : travail avec les
chercheurs
Une sélection au long cours…
L’appel d’offre
Choix de la forme du marché
Intégration de l’ensemble des prestations (numérisation,
XML et OCR) dans le même marché
Appel d’offre restreint
Calendrier
Rédaction du CCTP
Contraintes matérielles et d’interface
Décrire (et donc identifier…) le besoin : choix techniques
Préciser critères et procédures pour se donner des
garanties
Anticiper les difficultés de choix : test et grilles de réponse
le plus objectives possibles
Préserver le traitement égal des candidats
Organisation du dépouillement
Choix techniques
Deux principes
Essayer de suivre les standards en vigueur
Recevoir des documents « prêts à publier »
Formats d’image
Archivage : Tiff 300 dpi niveau de gris ou
couleur
Diffusion : JPEG 150 dpi, 300 dpi, vignettes,
PDF
Traitements sur les images
Nommage
Principes pour le projet :
Construire des identifiants permettant
de désigner de façon unique un
document et un fichier
Prévoir l’architecture de livraison des
fichiers
Pratique :
Le diable gît dans les détails
longueur du code et des séquences,
pluriels, casse, tirets…
Exemples de nommage
Pour un document
GR_000327_001
Pour un fichier
GR_000327_001_J1_453.jpg
GR_000327_001_folios.xml
Pour un support physique
GR_000327_001_A
GR_000328_001_A_001
GR_000328_001_A_002
GR_000327_001_D
Fichiers texte
Principes : format XML
Diversité des cas à gérer : OCR, tables,
correspondance page papier / fichier
Pratique :
Quels schémas ou DTD ?
Quel balisage concret une fois
l’implémentation XML choisie ?
Traitements pour l’OCR
L’appel d’offre
Rédaction du CCTP (suite)
Préciser critères et procédures pour se
donner des garanties
Anticiper les difficultés de choix : test et
grilles de réponse le plus objectives
possibles
Préserver le traitement égal des
candidats
Organisation du dépouillement
Organisation du projet
Un travail interne à ne pas sous-estimer
Préparation des documents
Prélèvement, description et marquage
Génération des métadonnées
Vérifications
Publications
Catalogage
Travail avec le prestataire
Lots test
Rythme de production
Suivi
Accès direct
à la Jubilothèque
http://jubil.upmc.fr/sdx/pl/
Portail Jubil
http://jubil.upmc.fr
Mise en ligne
Mise en ligne
Fonctionnalités et contraintes de l’interface
Interface Pleade : logiciel libre mais orienté Archives
Recherche et navigation par collections
Accès au document, vignettes, tables, zoom, OCR,
impression et téléchargement en PDF
Possibilité de liens entre documents ou vers l’extérieur
Site bilingue
Multiplier les points d’accès et la visibilité
Le portail documentaire Jubil (recherche, liste, interrogation
fédérée, actualités, dossier documentaire, fils RSS)
Sudoc et OPAC
Google (indexation plein texte)
Moissonnage OAI
Publication du document
TH_000045_001
Chargement des images par FTP
Génération du fichier EAD
Publication
Chargement des métadonnées dans
le portail
Merci de votre attention
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation
Jabes 2008 - Session 2 : panorama de la numérisation

Jabes 2008 - Session 2 : panorama de la numérisation

  • 1.
    Jubilothèque Zoom sur unprojet cecile.pierre@upmc.fr Cécile Pierre
  • 2.
    Présentation du projet Contexteinstitutionnel Bibliothèque Interuniversitaire CADIST Contrat quadriennal 2005-2008 Périmètre Documents scientifiques du XIXème siècle 4 collections thématiques : physique-chimie, thèses, géologie régionale, histoire de la géologie 95 000 pages dans le projet initial, 114 500 pages au total avec les compléments ultérieurs Budget global : 225 000 €
  • 3.
    Numériser, pour qui,pourquoi ? Repérage des documents anciens Identification de thématiques cohérentes Par rapport aux missions de la BIUS, à son histoire, et au contexte documentaire Par rapport aux publics visés Critères de sélection Documents complets et libres de droits Dédoublonnage par rapport aux réservoirs connus Sélection scientifique : travail avec les chercheurs Une sélection au long cours…
  • 4.
    L’appel d’offre Choix dela forme du marché Intégration de l’ensemble des prestations (numérisation, XML et OCR) dans le même marché Appel d’offre restreint Calendrier Rédaction du CCTP Contraintes matérielles et d’interface Décrire (et donc identifier…) le besoin : choix techniques Préciser critères et procédures pour se donner des garanties Anticiper les difficultés de choix : test et grilles de réponse le plus objectives possibles Préserver le traitement égal des candidats Organisation du dépouillement
  • 5.
    Choix techniques Deux principes Essayerde suivre les standards en vigueur Recevoir des documents « prêts à publier » Formats d’image Archivage : Tiff 300 dpi niveau de gris ou couleur Diffusion : JPEG 150 dpi, 300 dpi, vignettes, PDF Traitements sur les images
  • 6.
    Nommage Principes pour leprojet : Construire des identifiants permettant de désigner de façon unique un document et un fichier Prévoir l’architecture de livraison des fichiers Pratique : Le diable gît dans les détails longueur du code et des séquences, pluriels, casse, tirets…
  • 7.
    Exemples de nommage Pourun document GR_000327_001 Pour un fichier GR_000327_001_J1_453.jpg GR_000327_001_folios.xml Pour un support physique GR_000327_001_A GR_000328_001_A_001 GR_000328_001_A_002 GR_000327_001_D
  • 8.
    Fichiers texte Principes :format XML Diversité des cas à gérer : OCR, tables, correspondance page papier / fichier Pratique : Quels schémas ou DTD ? Quel balisage concret une fois l’implémentation XML choisie ? Traitements pour l’OCR
  • 9.
    L’appel d’offre Rédaction duCCTP (suite) Préciser critères et procédures pour se donner des garanties Anticiper les difficultés de choix : test et grilles de réponse le plus objectives possibles Préserver le traitement égal des candidats Organisation du dépouillement
  • 10.
    Organisation du projet Untravail interne à ne pas sous-estimer Préparation des documents Prélèvement, description et marquage Génération des métadonnées Vérifications Publications Catalogage Travail avec le prestataire Lots test Rythme de production Suivi
  • 11.
    Accès direct à laJubilothèque http://jubil.upmc.fr/sdx/pl/ Portail Jubil http://jubil.upmc.fr Mise en ligne
  • 12.
    Mise en ligne Fonctionnalitéset contraintes de l’interface Interface Pleade : logiciel libre mais orienté Archives Recherche et navigation par collections Accès au document, vignettes, tables, zoom, OCR, impression et téléchargement en PDF Possibilité de liens entre documents ou vers l’extérieur Site bilingue Multiplier les points d’accès et la visibilité Le portail documentaire Jubil (recherche, liste, interrogation fédérée, actualités, dossier documentaire, fils RSS) Sudoc et OPAC Google (indexation plein texte) Moissonnage OAI
  • 13.
    Publication du document TH_000045_001 Chargementdes images par FTP Génération du fichier EAD Publication Chargement des métadonnées dans le portail
  • 14.
    Merci de votreattention