Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen
1. Von der (Zeitungs-)Digitalisierung zu
historischen Netzwerken:
Methoden und Herausforderungen
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu
Zeitschriften als Netzwerke
Perspektiven digitaler Erforschung und Darstellung
Berlin, 13.07.2017
2. Europeana Newspapers
• EU-Projekt (2012 - 2015)
http://www.europeana-newspapers.eu/
• Ziele:
– Entwicklung eines gemeinsamen europäischen
Portals für digitalisierte historische Zeitungen:
http://www.theeuropeanlibrary.org/tel4/newspapers
– Nachweis von > 20 Mio. Seiten digitalisierter
historischer Zeitungen in der Europeana
– Volltexterkennung (OCR) von > 10 Mio. Seiten
digitalisierter historischer Zeitungen
9. Volltexterkennung (OCR)
• Volltexterkennung (Optical Character
Recognition, OCR) dient der Umwandlung
von Bildern (Scans) in editierbare und
durchsuchbare elektronische Texte
12. Named Entity Recognition (NER)
• Analyse der Benutzung der digitalisierten
Zeitungen der National Library of Wales -
9/10 Suchanfragen sind Personen oder Orte
(Paul Gooding, Exploring Usage of Digital Newspaper Archives
through Web Log Analysis: A Case Study of Welsh Newspapers
Online, Digital Humanities 2014, Lausanne)
13. Named Entity Recognition (NER)
• Named Entity Recognition (NER) dient der
Erkennung und Klassifikation von Entitäten
in Texten/Dokumenten
• Typische Anwendungsfälle:
Person, Ort, Organisation, Ereignis, Zeit
16. Named Entity Disambiguation
• Auflösen der Ambiguität über Kontext
(nicht immer vorhanden), z.B.
– „Der Reichskanzler“ + Zeitung aus 1880 = Bismarck
– „Der Reichskanzler“ + Zeitung aus 1905 = von Bülow
– „Jordan“ + „Chicago“ = Michael Jordan
– „Jordan“ + „Palästina“ = Jordanien
26. Nächste Schritte
• Verknüpfung von Entitäten in Zeitungen, ZDB,
Kalliope und weiteren relevanten Beständen
bzw. Projekten (z.B. Berliner Intellektuelle,
Social Networks and Archival Context)
• Innovative & interaktive Visualisierung(en)
• Statistische Abfragen & Auswertungen
DFG-Antrag „Interfaces to Data for Historical
Social Network Analysis Research“ (SoNAR)
27. Vielen Dank für die
Aufmerksamkeit!
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu