28   AVRIL



2 0 1 0

                Mettre en place un
              projet de numérisation
             --------------...
[[1]]

                                              Contexte

                                                    [[2]]

...
[[5]]

                               Aspects techniques

                                               [[6]]

          ...
1
           Contexte




CC-BY-SA // Manfrys // Flickr
Un sujet d'actualité

Sujet d'actualité et de surcroît « brûlant » en matière de
bibliothéconomie, la numérisation ne lais...
Les bibliothèques numériques

●   Corpus de documents, le plus souvent du domaine
    public, numérisés et disponibles en ...
Projet Gutenberg
                                      http://www.gutenberg.org

●   Projet bénévole lancé en 1971
●   30 ...
Gallica
                                            http://gallica.bnf.fr/

●   Lancé par la BnF en 1997
●   1 million de ...
Wikisource
                                                http://fr.wikisource.org

●   Projet frère de Wikipedia, lancé ...
Google Books
                                               http://books.google.fr/

●   Lancé en décembre 2004
●   10 mil...
Un avis sur la numérisation de masse


Quantitatif : avantage Google
⟶ Plus, plus vite et moins
cher que tout le monde

 Q...
2
              Les objectifs




CC-BY-SA // Multimotyl // Wikimedia Commons
Diffuser

●   Document aisément reproductible
●   Palliatif intéressant pour les ouvrages
    difficilement communicables
...
Valoriser

●   Mise en avant sur un site Internet
●   Diffusion élargie
    –   Moissonnage par des bibliothèques
        ...
Préserver



                                        ⚠
●   Limite les manipulations des originaux
●   Pérennité des suppor...
3
 Les facteurs




CC-BY // Cat & Nat // Flickr
Type de document

●   Forme de l'objet
    –   Texte ou graphique
    –   Imprimé ou manuscrit
    –   Couleur / Noir et b...
Format du document

●   Taille (A4, A3, format spécifique ...)
●   Couleur
●   Papier
●   Pagination
    –   Automatisatio...
Volume

●   Méthode et coût
    –   Automatisation, sous-traitance
●   OCR et recherche plein texte (plutôt
    qu'indexat...
Homogénéité du fonds

●   Formats différents
    –   Méthode de scannage à adapter ?
    –   Qualité de l'OCR sur un corpu...
État des documents

●   Choix du scanner et de la méthode
●   Traitement sur place
    –   Création d'un atelier
    –   M...
Coût

●   15 à 75 centimes par page (très variable)
●   60 à 75 % du coût en main d'œuvre
●   Ne pas négliger les coûts in...
4
Aspects légaux




 CC-BY // Lnanimatt // Flickr
« Les opérations de numérisation de documents ne confèrent à la
bibliothèque aucun droit de propriété littéraire et artist...
Le droit moral
● Droit   de divulgation
● Droit   de paternité
● Droit   au respect de
l'œuvre
● Droit   au repentir




 ...
Les droits
      patrimoniaux
 ●   Droits de reproduction
 ●   Droits de représentation




CC-BY-NC-SA // France.Diplomat...
L'auteur jouit, sa vie durant, du droit exclusif d'exploiter
son œuvre sous quelque forme que ce soit et d'en tirer un
pro...
Creative Commons
    BY
    Attribution

    NC
    Non Commercial

    ND
    No Derivative

    SA
    Share Alike




 ...
Aspects
             5
  techniques




CC-BY // Dolarz // Flickr
Modes de numérisation
        Idéal : une combinaison des deux numérisations



               Mode texte                 ...
OCR

 ●   Reconnaissance optique de caractères
 ●   Taux de reconnaissance > 99% pour des textes
     propres
 ●   Plus co...
ICR

●   Reconnaissance intelligente de caractères
●   Mécanisme d'apprentissage
●   Plus adapté aux manuscrits




      ...
L 'expérience reCAPTCHA




Source   OCR              reCAPTCHA




                                      Technique
Résolution

●   Se mesure en point par pouce
    –   1 pouce = 2,54 cm
    –   1 pouce = 1 inch
●   Résolutions standards ...
Couleurs

●   Noir & Blanc
●   Niveau de gris
●   Couleurs
●   Échantillonage (bits par pixel)
    –   1 bit → 2 couleurs ...
Métadonnées EXIF
●   Exchangeable Image File
●   Dernière version en 2002 (2.2)
●   Standard de fait
                     ...
Métadonnées IPTC-IIM

●   International Press and Telecommunications
    Council Information Interchange Model
●   Utilisé...
XMP

●   eXtensible Metadata Platform
●   Créé par Adobe en 2001
●   Basé sur XML / Dublin Core, IPTC-IIM et EXIF
●   Enca...
6
   La mise en ligne




CC-BY // Arnoldius // Wikimedia Commons
Une étape obligatoire
●   Pour répondre à nos décideurs / financeurs
●   Pour répondre à nos usagers
●   Pour rencontrer u...
Priorités
           ●
               Ouverture
           ●
               Interopérabilité
           ●
               A...
OAI - PMH

●   Format d'échange basé sur XML
●   Fourniture des données en Dublin Core
●   Protocole très simple
    –    ...
Choix des outils
●
     Libre / Propriétaire
●
     Local / Hébergé
●
     Full-web ou pas




            CC-BY // Sophie...
BM Toulouse

                 Sur son site
●   Logiciel libre : Greenstone (unesco)
●   Application web
●   Classement par...
BM Lille
●   Logiciel libre : SDX
●   Application web

    http://numerique.bibliotheque.bm-lille.fr
BM Fréjus
●   Hébergement chez Arkhenum
● Numérisation des archives d'un
journal local
●   Numérisation PDF / Texte

    h...
Université Rennes 2
   ●   Logiciel libre : Omeka
   ●   Application web
   ●   Plugins variés :
       ●   Serveur OAI
  ...
7
                    Étapes du
                       projet




CC-BY-SA // Sémhur // Wikimedia Commons
La numérisation

●   Définir les objectifs de la numérisation
●   Sélectionner le fonds à traiter
    –   Fonds préexistan...
La numérisation

●   Définir les questions techniques
    –   Résolution
    –   Format
    –   OCR
    –   Métadonnées
  ...
La diffusion

●   Choisir ce qui doit être diffusé
●   Choisir la manière de diffuser
    –   Via un outil interne
    –  ...
Support
                sous licence
           Creative Commons BY SA




        MERCI


           Inspiré du support

...
Prochain SlideShare
Chargement dans…5
×

Éléments pour la mise en place d'un projet de numérisation

9 889 vues

Publié le

Support de cours présentant les éléments à prendre en compte lors de la mise en place d'un projet de numérisation.

Publié dans : Formation

Éléments pour la mise en place d'un projet de numérisation

  1. 1. 28 AVRIL 2 0 1 0 Mettre en place un projet de numérisation ------------------------------------ Sylvain Machefert
  2. 2. [[1]] Contexte [[2]] Objectifs [[3]] Facteurs [[4]] Aspects légaux Numérisation // Médiaquitaine // 28-04-2010
  3. 3. [[5]] Aspects techniques [[6]] La mise en ligne [[7]] Rappel des étapes Numérisation // Médiaquitaine // 28-04-2010
  4. 4. 1 Contexte CC-BY-SA // Manfrys // Flickr
  5. 5. Un sujet d'actualité Sujet d'actualité et de surcroît « brûlant » en matière de bibliothéconomie, la numérisation ne laisse pas de susciter maints commentaires Conduire un projet de numérisation / 2002 1992 2005 2010 Contexte
  6. 6. Les bibliothèques numériques ● Corpus de documents, le plus souvent du domaine public, numérisés et disponibles en ligne ● Développées principalement par les bibliothèques ● Volumétries très variables ● Qualité très variable – Qualité du contenu – Qualité de la présentation Contexte
  7. 7. Projet Gutenberg http://www.gutenberg.org ● Projet bénévole lancé en 1971 ● 30 000 ouvrages ● Vérification manuelle Contexte
  8. 8. Gallica http://gallica.bnf.fr/ ● Lancé par la BnF en 1997 ● 1 million de documents – 150 000 livres – 700 000 fascicules de périodiques ● Mode texte et image ● Documents sous droits – Depuis 2007 – 20 000 livres Contexte
  9. 9. Wikisource http://fr.wikisource.org ● Projet frère de Wikipedia, lancé en 2003 ● Ouvrages du domaine public (plusieurs dizaines de milliers) ● Partenariat avec la BnF ● Désaccord avec Gallimard (informations) Contexte
  10. 10. Google Books http://books.google.fr/ ● Lancé en décembre 2004 ● 10 millions d'ouvrages numérisés – 1,5 millions du domaine public – 2 millions en partenariat avec les éditeurs ● Un accueil mitigé chez les professionnels – 300 000 € de dommages et intérêts à La Martinière (déc. 2009) – ~ 20 bibliothèques partenaires Le téléchargement dans Google Books Contexte
  11. 11. Un avis sur la numérisation de masse Quantitatif : avantage Google ⟶ Plus, plus vite et moins cher que tout le monde Qualitatif : avantage Google ⟶ Presque aussi bien que tout le monde Accès : avantage Google ⟶ Plus rapide, plus efficace, plus « pratique », plus central Source : Olivier Ertzscheid CC-BY-NC-SA // Kathelinejeanpierre.ca // Flickr
  12. 12. 2 Les objectifs CC-BY-SA // Multimotyl // Wikimedia Commons
  13. 13. Diffuser ● Document aisément reproductible ● Palliatif intéressant pour les ouvrages difficilement communicables ● Ne nécessite pas de matériel spécifique (≠ microfiches) ● Non exclusif Objectifs
  14. 14. Valoriser ● Mise en avant sur un site Internet ● Diffusion élargie – Moissonnage par des bibliothèques d'envergure – intégration dans des projets externes aux bibliothèques – Flickr Commons – Wikimedia Commons Objectifs
  15. 15. Préserver ⚠ ● Limite les manipulations des originaux ● Pérennité des supports numériques Objectifs
  16. 16. 3 Les facteurs CC-BY // Cat & Nat // Flickr
  17. 17. Type de document ● Forme de l'objet – Texte ou graphique – Imprimé ou manuscrit – Couleur / Noir et blanc ● Contenu – Texte – Formulaire – Niveau de structuration Facteurs
  18. 18. Format du document ● Taille (A4, A3, format spécifique ...) ● Couleur ● Papier ● Pagination – Automatisation – Choix du format de sortie (multipage ?) Facteurs
  19. 19. Volume ● Méthode et coût – Automatisation, sous-traitance ● OCR et recherche plein texte (plutôt qu'indexation ?) ● Gestion des transferts vers le prestataire ● Ressources disponibles en interne ● Stockage des documents numériques Facteurs
  20. 20. Homogénéité du fonds ● Formats différents – Méthode de scannage à adapter ? – Qualité de l'OCR sur un corpus hétérogène ? – Coût ● Documents de nature différente – Pertinence du traitement dans un seul projet ? Facteurs
  21. 21. État des documents ● Choix du scanner et de la méthode ● Traitement sur place – Création d'un atelier – Main d'œuvre dédiée Facteurs
  22. 22. Coût ● 15 à 75 centimes par page (très variable) ● 60 à 75 % du coût en main d'œuvre ● Ne pas négliger les coûts induits en local – Sélection des documents – Préparation des trains de numérisation – Contrôle qualité Facteurs
  23. 23. 4 Aspects légaux CC-BY // Lnanimatt // Flickr
  24. 24. « Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites. » http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/juridi.html
  25. 25. Le droit moral ● Droit de divulgation ● Droit de paternité ● Droit au respect de l'œuvre ● Droit au repentir CC-BY // Midgefrazel // Flickr
  26. 26. Les droits patrimoniaux ● Droits de reproduction ● Droits de représentation CC-BY-NC-SA // France.Diplomatie // Flickr
  27. 27. L'auteur jouit, sa vie durant, du droit exclusif d'exploiter son œuvre sous quelque forme que ce soit et d'en tirer un profit pécuniaire. Au décès de l'auteur, ce droit persiste au bénéfice de ses ayants droit pendant l'année civile en cours et les soixante- dix années qui suivent. Art. L.123-1 du code de la propriété intellectuelle
  28. 28. Creative Commons BY Attribution NC Non Commercial ND No Derivative SA Share Alike CC-BY-SA // Arnij // Flickr
  29. 29. Aspects 5 techniques CC-BY // Dolarz // Flickr
  30. 30. Modes de numérisation Idéal : une combinaison des deux numérisations Mode texte Mode image ● Donne du sens au contenu ● Restitution du document  ● Permet l'indexation, la recherche original à l'identique + ● Plus cher ● Limite les possibilités en terme  ● Nécessite d'avoir des outils  d'usage ­ performants Technique
  31. 31. OCR ● Reconnaissance optique de caractères ● Taux de reconnaissance > 99% pour des textes propres ● Plus compliqué sur du document ancien ou manuscrit http://gallica.bnf.fr/ark:/12148/bpt6k56800101.f7 http://gallica.bnf.fr/ark:/12148/bpt6k56800101.texte.f7 Technique
  32. 32. ICR ● Reconnaissance intelligente de caractères ● Mécanisme d'apprentissage ● Plus adapté aux manuscrits Technique
  33. 33. L 'expérience reCAPTCHA Source OCR reCAPTCHA Technique
  34. 34. Résolution ● Se mesure en point par pouce – 1 pouce = 2,54 cm – 1 pouce = 1 inch ● Résolutions standards (BnF, 2008) : – Fichiers de conservation : 300 dpi – Fichiers de diffusion : 150 dpi – Fichier de visualisation : 72 dpi Technique
  35. 35. Couleurs ● Noir & Blanc ● Niveau de gris ● Couleurs ● Échantillonage (bits par pixel) – 1 bit → 2 couleurs (noir et blanc) – 2 bits → 4 couleurs ou niveaux de gris – 8 bits → 256 couleurs ou niveaux de gris – 24 bits → 16 millions de couleurs (vraies couleurs) Technique
  36. 36. Métadonnées EXIF ● Exchangeable Image File ● Dernière version en 2002 (2.2) ● Standard de fait CC­BY­SA // YellowShark // Wikimedia Commons ● Produite par un appareil photo ou ajoutées a posteriori ● Décrit : – Résolution, dimension, orientation de l'image – Date et heure de la prise de vue – Informations sur l'appareil (fabricant, type, réglages) – Coordonnées géographiques Technique
  37. 37. Métadonnées IPTC-IIM ● International Press and Telecommunications Council Information Interchange Model ● Utilisé dès 1994 par Adobe ● Métadonnées descriptives : – Titre – Auteur – Agence – ... Technique
  38. 38. XMP ● eXtensible Metadata Platform ● Créé par Adobe en 2001 ● Basé sur XML / Dublin Core, IPTC-IIM et EXIF ● Encapsulable dans des fichiers JPG, TIFF, DNG, PDF Technique
  39. 39. 6 La mise en ligne CC-BY // Arnoldius // Wikimedia Commons
  40. 40. Une étape obligatoire ● Pour répondre à nos décideurs / financeurs ● Pour répondre à nos usagers ● Pour rencontrer un nouveau public CC-BY-SA // Roulex_45 // Wikimedia Commons
  41. 41. Priorités ● Ouverture ● Interopérabilité ● Accessibilité Libre de droits // Rundvald // Wikimedia Commons
  42. 42. OAI - PMH ● Format d'échange basé sur XML ● Fourniture des données en Dublin Core ● Protocole très simple – Informations sur un serveur – Liste des enregistrements ● Nécessite d'avoir des urls pérennes
  43. 43. Choix des outils ● Libre / Propriétaire ● Local / Hébergé ● Full-web ou pas CC-BY // SophieA // Flickr
  44. 44. BM Toulouse Sur son site ● Logiciel libre : Greenstone (unesco) ● Application web ● Classement par collections http://numerique.bibliotheque.toulouse.fr Sur Flickr ● Projet The Commons ● Dissémination du contenu ● 920 images http://www.flickr.com/photos/bibliothequedetoulouse/ Mise en ligne
  45. 45. BM Lille ● Logiciel libre : SDX ● Application web http://numerique.bibliotheque.bm-lille.fr
  46. 46. BM Fréjus ● Hébergement chez Arkhenum ● Numérisation des archives d'un journal local ● Numérisation PDF / Texte http://www1.arkhenum.fr/bm_frejus_le_var/ Mise en ligne
  47. 47. Université Rennes 2 ● Logiciel libre : Omeka ● Application web ● Plugins variés : ● Serveur OAI ● Géolocalisation ● Visualisation http://bibnum.univ-rennes2.fr Mise en ligne
  48. 48. 7 Étapes du projet CC-BY-SA // Sémhur // Wikimedia Commons
  49. 49. La numérisation ● Définir les objectifs de la numérisation ● Sélectionner le fonds à traiter – Fonds préexistant ou sélection d'un sous- corpus – Importance de l'homogénéité de l'ensemble – S'assurer des contraintes législatives ● Répartir les rôles Étapes
  50. 50. La numérisation ● Définir les questions techniques – Résolution – Format – OCR – Métadonnées – Support de livraison ● Définir une règle de nommage ● Contrôler la qualité des documents produits ● Archiver les documents Étapes
  51. 51. La diffusion ● Choisir ce qui doit être diffusé ● Choisir la manière de diffuser – Via un outil interne – Via un site web externe ● Si on diffuse via un outil interne, s'assurer de : – Son ouverture – Son interopérable – Son accessibilité Étapes
  52. 52. Support sous licence Creative Commons BY SA MERCI Inspiré du support symac de cours de Claire Scopsi (INTD-CNAM)

×