SlideShare une entreprise Scribd logo
1  sur  27
Von der (Zeitungs-)Digitalisierung zu
historischen Netzwerken:
Methoden und Herausforderungen
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu
Zeitschriften als Netzwerke
Perspektiven digitaler Erforschung und Darstellung
Berlin, 13.07.2017
Europeana Newspapers
• EU-Projekt (2012 - 2015)
http://www.europeana-newspapers.eu/
• Ziele:
– Entwicklung eines gemeinsamen europäischen
Portals für digitalisierte historische Zeitungen:
http://www.theeuropeanlibrary.org/tel4/newspapers
– Nachweis von > 20 Mio. Seiten digitalisierter
historischer Zeitungen in der Europeana
– Volltexterkennung (OCR) von > 10 Mio. Seiten
digitalisierter historischer Zeitungen
Europeana Newspapers (2014 – 2017)
Titelsuche
Kalendersuche
Volltextsuche
Anzeige
Europeana Newspapers (2018 - ?)
Volltexterkennung (OCR)
• Volltexterkennung (Optical Character
Recognition, OCR) dient der Umwandlung
von Bildern (Scans) in editierbare und
durchsuchbare elektronische Texte
Herausforderungen
Evaluation
82.4%
85.3%
80.9%
75.9%
67.5%
83.4% 84.1%
68.1%
93.1%
57.6%
87.0%
68.3%
76.1%
82.6%
54.1%
32.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SuccessRate
Language Setting
Bag of Words OCR Evaluation
Per Language
79.1%
62.2%
55.9%
58.8%
94.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Keyword
search
Phrase search Access via
content
structure
Print/ebook
on demand
Content
based image
retrieval
SuccessRate(harmonic,areabased)
Evaluation Profile
Layout Analysis Performance
Per evaluation profile
 Ca. 20% Fehlerrate Wortgenauigkeit
 Ca. 20% Fehlerrate Layouterkennung
Named Entity Recognition (NER)
• Analyse der Benutzung der digitalisierten
Zeitungen der National Library of Wales -
9/10 Suchanfragen sind Personen oder Orte
(Paul Gooding, Exploring Usage of Digital Newspaper Archives
through Web Log Analysis: A Case Study of Welsh Newspapers
Online, Digital Humanities 2014, Lausanne)
Named Entity Recognition (NER)
• Named Entity Recognition (NER) dient der
Erkennung und Klassifikation von Entitäten
in Texten/Dokumenten
• Typische Anwendungsfälle:
Person, Ort, Organisation, Ereignis, Zeit
Evaluation
Personen Orte Organisationen
Precision 0.940 0.950 0.942
Recall 0.588 0.760 0.559
F-measure 0.689 0.838 0.671
 Ca. 5% Fehlerrate Genauigkeit
 Ca. 35% Fehlerrate Erkennung
Herausforderungen
• Qualität der Volltexte/OCR
• Sprachabhängig (im Projekt: Deutsch,
Französisch, Niederländisch)
• Historische Ortsnamen, Schreibvarianten
– Przemyśl, Peremyschl, Premissel
• Ambiguität – z.B.
– „Der Reichskanzler“ (Identifikation – wer/wann?)
– „Jordan“ (Klassifikation – Ort? Person?)
Named Entity Disambiguation
• Auflösen der Ambiguität über Kontext
(nicht immer vorhanden), z.B.
– „Der Reichskanzler“ + Zeitung aus 1880 = Bismarck
– „Der Reichskanzler“ + Zeitung aus 1905 = von Bülow
– „Jordan“ + „Chicago“ = Michael Jordan
– „Jordan“ + „Palästina“ = Jordanien
Named Entity Linking
• Verlinkung der Entitäten mit Normdaten erlaubt
eindeutige und sprachunabhängige Zuordnung:
– „Bismarck“ (Otto von)
 Wikidata = Q8442 / GND = 11851136X
– „Bismarck“ (Schlachtschiff)
 Wikidata = Q150857 / GND = ???
– „Jordan“ (Michael)
 Wikidata = Q41421 / GND = 119184486
– „Jordan“ (Land)
 Wikidata = Q810 / GND = 040287505
Hypothesen sind Netze, nur der
wird fangen, der auswirft.
Novalis
Weitere relevante Bestände
• Digitalisierte Zeitungen – ZEFYS
http://zefys.staatsbibliothek-berlin.de/
• Zeitschriftendatenbank – ZDB
http://www.zeitschriftendatenbank.de/
• Kalliope Verbundkatalog – KPE
http://kalliope-verbund.info/
ZEFYS
Reprinting Networks
• Oceanic Exchanges (Digging Into Data)
Zeitschriftendatenbank
• Bezugspunkte:
– Personen (Autoren und Herausgeber)
– Zeitschriften/Zeitungen
– (Erscheinungs-)Orte
– Körperschaften (Verlage, Vereinigungen)
– Gattungen
http://beta.zdb-katalog.de/title.xhtml?idn=011476532
Kalliope
• Bezugspunkte:
– Personen (Briefwechsel/Korrespondenzen!)
– Körperschaften und Kongresse
– Sachschlagwörter
– Gattungen/Materialarten
– Geographika (Entstehungsorte)
– Werktitel
http://kalliope-verbund.info/de/graph?q=ead.genre.gnd="4008240-4"
and ead_participant_gnd="118763784"
Nächste Schritte
• Verknüpfung von Entitäten in Zeitungen, ZDB,
Kalliope und weiteren relevanten Beständen
bzw. Projekten (z.B. Berliner Intellektuelle,
Social Networks and Archival Context)
• Innovative & interaktive Visualisierung(en)
• Statistische Abfragen & Auswertungen
 DFG-Antrag „Interfaces to Data for Historical
Social Network Analysis Research“ (SoNAR)
Vielen Dank für die
Aufmerksamkeit!
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
clemens.neudecker@europeana-newspapers.eu

Contenu connexe

Plus de cneudecker

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
cneudecker
 

Plus de cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Herausforderungen