2. Europeana Newspapers – waarom kranten?
Waarom kranten?
• Belangrijke bron voor onderzoek
• Relevant voor het algemeen publiek
Bronnen:
http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage;
http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home
http://gallica.bnf.fr/ark:/12148/bpt6k265203z ; 2
3. Projectprofiel: Consortium & stakeholders
• 17 partners uit 12 landen:
• Nationale bibliotheken
• Universiteitsbibliotheken
• Onderzoeksinstituten
• Commerciële partij
• Framework:
• Best Practice Network
• ICT-PSP programma van de Europese Commissie
• Projectduur: februari 2012 – januari 2015
3
5. Europeana Newspapers: Doelen
• Aggregatie en verrijking van kranten voor Europeana
• Circa 18 miljoen krantenpagina’s naar Europeana
• Verrijken met OCR, layout herkenning (OLR) en named entity
recognition
• Analyse bestaande krantencollecties
• Overzicht bestaande projecten
• Aanmoedigen om ook kranten bij te dragen
5
6. Europeana Newspapers: Doelen
• Quality assurance en best practice aanbevelingen
• Voortbouwen op andere projecten (o.a. IMPACT en Europeana
Libraries)
• Bijdragen aan geoptimaliseerde workflows
• Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc.
• Presentatie en full-text doorzoeken
• 18 miljoen Europese krantenpagina’s
• Verbeteren van de toegang van kranten in Europeana
7. Aggregatie en verrijking van kranten voor Europeana
• Aggregatie in Europeana en The European
Library
• 18 miljoen gedigitaliseerde krantenpagina’s
• 8 miljoen pagina’s zonder bewerkingen
www.europeana.eu/
(content leveranciers)
• 8 miljoen verrijkte pagina’s: OCR (UIBK,
Oostenrijk)
• 2 miljoen verrijkte pagina’s: OCR/OLR
(artikelsegmentatie) (CCS, Duitsland)
www.theeuropeanlibrary.org/
7
8. Verrijking – OCR en OLR
• 8 miljoen verrijkte pagina’s:
OCR (UIBK, Oostenrijk)
• OCR (ABBYY)
• Output in ALTO formaat
• Test met Document Understanding
Platform (FEP)
• Ontwikkeld binnen IMPACT
• Profielen aangepast aan kranten
UIBK: Herkenning van titels, voetnoten, etc.
Extractie van inhoudsopgave
9. Verrijking – OCR en OLR
• 2 miljoen verrijkte pagina’s: • Automatische layout herkenning
OCR/OLR (artikelsegmentatie) • Kolommen
(CCS, Duitsland)
• Zones
• OCR (ABBYY)
• Pagina types
• Automatische artikelsegmentatie
• Aanvullende handmatige verificatie
en quality control
CCS: Kolomherkenning en artikelsegmentatie
10. Verrijking - Named Entity Recognition
• Named entity herkenning (KB, Nederland)
• Tot drie talen
• Nederlands
• Engels
• Duits
11. Analyse bestaande krantencollecties
• Enquête over digitale krantencollecties
• Zomer 2012
• Circa 45 Europese bibliotheken
• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van
Berlijn
• Potentiële nieuwe partners
• Informatie over de technische status van gedigitaliseerd materiaal
12. Quality assurance en best practice aanbevelingen
• Ontwikkeling van een • Evaluatie van de
metadataprofiel (METS) digitaliseringsworkflow voor
• Gebruik binnen het project kranten, inclusief verrijking
• Aanbeveling voor toekomstige • M.b.v. een quality assessment
digitaliseer- en framework
verrijkingsprojecten • Inclusief tools uit IMPACT
• Aanbevelingen voor het digitaliseren
en verrijken van kranten
13. Presentatie en full-text doorzoeken
• Content browser
• Onderdeel van het TEL portal
• Zoeken op full-text
• Zoekterm
• Named entities
• Per collectie
• Op datum
• Krantenafbeeldingen
• Link naar bibliotheek
Nb. Mock-ups
14. Promotie
• Doelen:
• Publiciteit van het project
• Vergroten van gebruik Europeana
• Media
• @eurnews
• www.facebook.com/EuropeanaNewspapers
• Workshops en conferenties
• Drie dissemination workshops
• Nationale informatie dagen
• Uitbreiding van het netwerk
14
15. Voordeel voor de KB kranten en gebruikers
• Beschikbaar via Europeana
• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen
andere Europese krantenpagina’s uit 12 landen
• Duitse kranten
• Franse kranten
• Oostenrijkse kranten
• Finse kranten
• Poolse kranten
• Etc.
• Verrijking met Named Entities