Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen

Von der (Zeitungs-)Digitalisierung zu
historischen Netzwerken:
Methoden und Herausforderungen
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu
Zeitschriften als Netzwerke
Perspektiven digitaler Erforschung und Darstellung
Berlin, 13.07.2017

Europeana Newspapers
• EU-Projekt (2012 - 2015)
http://www.europeana-newspapers.eu/
• Ziele:
– Entwicklung eines gemeinsamen europäischen
Portals für digitalisierte historische Zeitungen:
http://www.theeuropeanlibrary.org/tel4/newspapers
– Nachweis von > 20 Mio. Seiten digitalisierter
historischer Zeitungen in der Europeana
– Volltexterkennung (OCR) von > 10 Mio. Seiten
digitalisierter historischer Zeitungen

Europeana Newspapers (2014 – 2017)

Europeana Newspapers (2018 - ?)

Volltexterkennung (OCR)
• Volltexterkennung (Optical Character
Recognition, OCR) dient der Umwandlung
von Bildern (Scans) in editierbare und
durchsuchbare elektronische Texte

Evaluation
82.4%
85.3%
80.9%
75.9%
67.5%
83.4% 84.1%
68.1%
93.1%
57.6%
87.0%
68.3%
76.1%
82.6%
54.1%
32.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SuccessRate
Language Setting
Bag of Words OCR Evaluation
Per Language
79.1%
62.2%
55.9%
58.8%
94.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Keyword
search
Phrase search Access via
content
structure
Print/ebook
on demand
Content
based image
retrieval
SuccessRate(harmonic,areabased)
Evaluation Profile
Layout Analysis Performance
Per evaluation profile
 Ca. 20% Fehlerrate Wortgenauigkeit
 Ca. 20% Fehlerrate Layouterkennung

Named Entity Recognition (NER)
• Analyse der Benutzung der digitalisierten
Zeitungen der National Library of Wales -
9/10 Suchanfragen sind Personen oder Orte
(Paul Gooding, Exploring Usage of Digital Newspaper Archives
through Web Log Analysis: A Case Study of Welsh Newspapers
Online, Digital Humanities 2014, Lausanne)

Named Entity Recognition (NER)
• Named Entity Recognition (NER) dient der
Erkennung und Klassifikation von Entitäten
in Texten/Dokumenten
• Typische Anwendungsfälle:
Person, Ort, Organisation, Ereignis, Zeit

Evaluation
Personen Orte Organisationen
Precision 0.940 0.950 0.942
Recall 0.588 0.760 0.559
F-measure 0.689 0.838 0.671
 Ca. 5% Fehlerrate Genauigkeit
 Ca. 35% Fehlerrate Erkennung

Herausforderungen
• Qualität der Volltexte/OCR
• Sprachabhängig (im Projekt: Deutsch,
Französisch, Niederländisch)
• Historische Ortsnamen, Schreibvarianten
– Przemyśl, Peremyschl, Premissel
• Ambiguität – z.B.
– „Der Reichskanzler“ (Identifikation – wer/wann?)
– „Jordan“ (Klassifikation – Ort? Person?)

Named Entity Disambiguation
• Auflösen der Ambiguität über Kontext
(nicht immer vorhanden), z.B.
– „Der Reichskanzler“ + Zeitung aus 1880 = Bismarck
– „Der Reichskanzler“ + Zeitung aus 1905 = von Bülow
– „Jordan“ + „Chicago“ = Michael Jordan
– „Jordan“ + „Palästina“ = Jordanien

Named Entity Linking
• Verlinkung der Entitäten mit Normdaten erlaubt
eindeutige und sprachunabhängige Zuordnung:
– „Bismarck“ (Otto von)
 Wikidata = Q8442 / GND = 11851136X
– „Bismarck“ (Schlachtschiff)
 Wikidata = Q150857 / GND = ???
– „Jordan“ (Michael)
 Wikidata = Q41421 / GND = 119184486
– „Jordan“ (Land)
 Wikidata = Q810 / GND = 040287505

Hypothesen sind Netze, nur der
wird fangen, der auswirft.
Novalis

Weitere relevante Bestände
• Digitalisierte Zeitungen – ZEFYS
http://zefys.staatsbibliothek-berlin.de/
• Zeitschriftendatenbank – ZDB
http://www.zeitschriftendatenbank.de/
• Kalliope Verbundkatalog – KPE
http://kalliope-verbund.info/

Reprinting Networks
• Oceanic Exchanges (Digging Into Data)

Zeitschriftendatenbank
• Bezugspunkte:
– Personen (Autoren und Herausgeber)
– Zeitschriften/Zeitungen
– (Erscheinungs-)Orte
– Körperschaften (Verlage, Vereinigungen)
– Gattungen

http://beta.zdb-katalog.de/title.xhtml?idn=011476532

Kalliope
• Bezugspunkte:
– Personen (Briefwechsel/Korrespondenzen!)
– Körperschaften und Kongresse
– Sachschlagwörter
– Gattungen/Materialarten
– Geographika (Entstehungsorte)
– Werktitel

http://kalliope-verbund.info/de/graph?q=ead.genre.gnd="4008240-4"
and ead_participant_gnd="118763784"

Nächste Schritte
• Verknüpfung von Entitäten in Zeitungen, ZDB,
Kalliope und weiteren relevanten Beständen
bzw. Projekten (z.B. Berliner Intellektuelle,
Social Networks and Archival Context)
• Innovative & interaktive Visualisierung(en)
• Statistische Abfragen & Auswertungen
 DFG-Antrag „Interfaces to Data for Historical
Social Network Analysis Research“ (SoNAR)

Vielen Dank für die
Aufmerksamkeit!
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen

Recommandé

Recommandé

Contenu connexe

Plus de cneudecker

Plus de cneudecker (20)

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen