Deze presentatie behandelt wat er allemaal komt kijken bij het digitaliseren en online publiceren van erfgoedmateriaal, met de nadruk op bibliotheekerfgoed. En passant wordt ingegaan wat er in Vlaanderen en België zoal beschikbaar is aan digitaal bibliotheekerfgoed. Bedoeling is een inleiding te geven en een theoretisch kader. Wie zelf wil digitaliseren vindt aan het begin van de presentatie enkele leestips.
PRESENTATIE 2 (van 3)
- Digitalisering van presentaties
--- Wat zijn publicaties? Vroeger en nu
--- ‘Born-digital’
- Waarom publicaties digitaliseren?
--- Conservering
--- Toegang erfgoedobjecten
--- Toegang informatie
- Hoe publicaties digitaliseren?
--- Digitale beelden maken
--- Optische tekenherkenning
--- Transcriberen
Het kwaliteitslabel in de praktijk - Overlegplatform voor erfgoedbibliotheken...
De online erfgoedbibliotheek (2/3)
1. De online
erfgoedbibliotheek (2)
David Coppoolse
Stafmedewerker ontsluiting en digitalisering
Vlaamse Erfgoedbibliotheek
Vormingsreeks ‘Van heemkundige collectie tot
online erfgoedbibliotheek’
Heemkunde Vlaanderen | november 2011
2. Wat vooraf ging in presentatie 1
Zelf digitaliseren
De vzw Vlaamse Erfgoedbibliotheek
Erfgoedbibliotheken
Wat is digitalisering?
Digitalisering van ‘ingangen’ op collecties
Catalogi
Netwerkcatalogi, Union Catalogs
Bibliografieën
Abraham, STCV
Collectiebeschrijvingen
Collectieregisters
2011-11-30 2
5. Papieren publicaties
Periodieken
Kranten
Vanaf ca. 1620 – Abraham Verhoeven, Antwerpen
Tijdschriften
Vanaf tweede helft
achttiende eeuw
2011-11-30 5
8. ‘Born digital’
= ‘Van oorsprong digitaal’
Digitale publicaties die nooit in papieren vorm
bestaan hebben
Creatie, bewaring en raadpleging zijn volledig digitaal
Vaak is er nog wel een papieren pendant
Bewaring is speciale uitdaging!
Eigenlijk ook: alle papieren publicaties anno 2011
Op basis van computerbestanden
Begonnen in de jaren 1970 met computergestuurd zetten
2011-11-30 8
12. Alternatief voor microfilm?
Microfilm:
Goede microfilm gaat meer
dan 100 jaar mee
Met een vergrootglas kom je een heel eind
Digitaal bestand:
Hoe lang gaat de drager, het bestand, de
softwaretoepassing, het besturingssysteem, de
hardware mee?
Digitale duurzaamheid
2011-11-30 12
13. Waarom digitaliseren?
Reden 2: Toegang
erfgoedobjecten verbeteren
Bibliotheekerfgoed relatief
moeilijk toegankelijk
Massaal bladeren door
manuscripten,
oude boeken, kranten etc.
bedreigt voortbestaan
Topstukken liggen
normaliter in de kluis
2011-11-30 13
16. Waarom digitaliseren?
Reden 3: Informatietoegang verbeteren
Toegang tot materiaal vereenvoudigen
Van achter het bureau van de gebruiker
‘Overal ter wereld’
Nieuwe antwoorden en vragen mogelijk maken
Snel zoeken door grote corpora
Taalkundige analyse van grote hoeveelheden teksten
2011-11-30 16
17. Problemen digitale toegang
Digitaal materiaal opgeslagen
in heel veel afzonderlijke ‘silo’s’
met zeer verschillende manieren van toegang
Gedigitaliseerd op
uiteenlopende kwaliteiten
volgens diverse standaarden
Verbeterpunten voor de komende jaren!
2011-11-30 17
19. Conversie van publicaties
Optie 1: Maken van digitale beelden van
papieren pagina’s
‘Imaging’ met een scanner of een digitale fotocamera
Voordeel:
Ziet eruit zoals het origineel
Direct leesbaar voor mensen (soms beter dan origineel)
Is inhoudelijk foutloos
Nadeel:
Niet leesbaar voor computers
Bijv. zoeken, knippen+plakken niet mogelijk
Véél grotere bestanden dan gewone tekst
2011-11-30 19
20. Eén pagina als tekstbestand
MS Word 2003 Platte tekst
2011-11-30 20
22. Waarom toch grote bestanden?
We willen:
Een moederkopie die het origineel zo goed mogelijk
benadert
In een zo eenvoudig mogelijk, duurzaam bestandsformaat
Dus:
Kleur (of tenminste grijswaarden)
Hoge resolutie
(veel beeldpunten per cm2)
Geen compressie met beeldverlies
2011-11-30 22
31. Conversie van publicaties
Optie 2: Interpreteren van de lettertekens van
digitale beelden
‘Optical Character Recognition’ (OCR)
Computer herkent patronen van beeldpunten als
lettertekens
Voordeel: Zoeken, kopiëren en andere
computerbewerkingen worden mogelijk
Nadeel: Foutenmarge
2011-11-30 31
33. Optical Character Recognition
Wat werkt quasi feilloos? Waarom?
Alledaags Eenvoudige
kantoordocument tekststructuur
Op laserprinter Scherpe contrastrijke
afgedrukt afdruk
In een gangbaar Gekende lettervormen,
lettertype zonder ligaturen etc
Met een lettergrootte van Veel pixels per letter
minimaal 10 pt
In een moderne taal Woordenlijsten
beschikbaar ter controle
2011-11-30 33
34. Uitdagingen tekstherkenning
Handgeschreven tekst
Complexe of ongebruikelijke lettertypes
Kleine lettertypes
Slecht drukwerk
Beschadigde materialen
Gebonden materialen
Oude en onregelmatige spelling
Pagina’s in kolommen
2011-11-30 34