SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
Der Einsatz automatisierter
Verfahren zur vertieften
Erschließung historischer
Zeitungsbestände. Ein DFG-
Pilotprojekt der ULB Sachsen-
Anhalt
Europeana Newspapers Project
Information Day Berlin, 27. Februar 2014
Kay Heiligenhaus
semantics GmbH, Aachen
Einführung
Teilprojekt der
ULB Sachsen-Anhalt
Digitalisierung des Halleschen Tageblattes
∙Laufzeit von Mai 2013 bis April 2015
∙Digitalisierung von 117 Bänden
unterschiedlichen Formats (vom Original in
Farbe)
∙durch Strukturdaten inhaltlich erschlossen
∙durch Fraktur-OCR im Volltext erschlossen
∙persistent adressierbar bis auf Ausgabe-,
Artikel- und Seitenebene
Digitalisierung des Halleschen Tageblattes
Zeitraum Format Anzahl der
Bände
Anzahl der
Seiten
1799 - 1855 Oktav 68 74.280
1856 - 1864 Quart 9 13.611
1865 -1871 Folio 4° 8 11.586
1872 -1892 Folio 2° 32 42.922
Gesamt 117 142.399
TEIL I
Rahmenbedingungen
DFG-Positionspapier (2012): Digitalisierung
Ausschuss für Wissen-
schaftliche Bibliotheken und
Informationssysteme: Die
digitale Transformation weiter
gestalten – Der Beitrag der
Deutschen Forschungs-
gemeinschaft zu einer
innovativen Informations-
infrastruktur für die Forschung,
Bonn, 3. Juli 2012.
http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
DFG-Positionspapier (2012): Förderschwerpunkte
Zur weiteren Umsetzung der
digitalen Transformation analoger
Überlieferung wird sich der
Schwerpunkt der
Förderaktivitäten im Bereich
Digitalisierung nach und nach von
Drucken hin zu historischen
Zeitungen und unikalem
Material […] verschieben. (S. 10)
DFG-Positionspapier (2012): Pilotprojekt Zeitungen
Bei der […] Förderung von
Digitalisierungsmaßnahmen im
Bereich historischer Zeitungen
[…] wird es in erster Linie darum
gehen, im Rahmen von
Pilotphasen methodische,
organisatorische und
technische Rahmen-
bedingungen […] zu definieren.
(S. 10)
DFG-Positionspapier (2012): Automatisierung
Vor dem Hintergrund technischer
Weiterentwicklungen sollte […]
eruiert werden, wie
automatisierte Verfahren zur
vertieften Erschließung […]
Anwendung finden können. Dabei
soll auch die Entwicklung neuer
Methoden, zum Beispiel im Bereich
des Machine Learning, gefördert
werden. (S. 12)
TEIL II
Ziele des Projektes
Herausforderung: Inhaltliche Erschließung aller
in Deutschland erschienenen Zeitungen bis 1945
o Zeitungen in der ZDB:
~ 50.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland:
~ 30.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland vor 1945:
~ 16.000 Titel.
http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
Mindestanforderung: Von der ZDB zu einer
strukturierten Navigation im DFG-Viewer
Umsetzung der Mindestanforderung: Erschließung
bis auf Ausgabeebene (Jahr/Monat/Tag)
Ist-Stand: Manuelle Strukturdatenerfassung
Mengengerüst und Kosten: Minimal-Erschließung
o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,
~ 1 Mrd. Seiten)
o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8
Stunden/Tag, 250 Arbeitstage/Jahr)
o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro
Seite)
Herausforderung: Reduktion der Erschließungskosten.
TEIL II
Lösungsansätze
Lösungsoption I: Nutzung der Layout-Analyse
und Text-Erkennung von Abbyy-Finereader
Lösungsoption I: Kernproblem ist die Erkennung von
Frakturschriften
Kosten der Lösungsoption I:
Einsatz von Abbyy Finereader
o ~ 10 Mio. EUR Lizenzkosten OCR
o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre
auf aktueller Server-Hardware)
o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung)
~ 17,25 Mio. EUR Gesamtkosten
(~ 50% Einsparung)
Lösungsoption II: Mustererkennung
Lösungsoption II: Musterwiederholungen bei
periodischen Werken
Lösungsoption II: Ermittlung eines Fingerprints
Lösungsoption II: Technische Parameter zur
Ermittlung des Fingerprints
o Ziel: Identifikation hinreichend eindeutiger
Objekte (Pixelhaufen) von bestimmter Größe
auf einer Seite, um eine Segmentierung eines
Seitenstroms (Jahrgang) in homogene
Segmente zur erreichen.
o Objektgröße
o Erosion/Dilation
o Position
o Objektanzahl(min/max)
o 11 Mio. Kombinationen
(50 x 15 x 250 x 600)
o ~ 1 Seite/Sekunde pro Core
Einsatz in der Projekt-Praxis: Automatische
Segmentierung eines Jahrgangs
Einsatz in der Projekt-Praxis: Qualitätssicherung der
segmentierten Jahrgänge
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe
Einsatz in der Projekt-Praxis: Zuweisung von
konkreten Datumswerten je Tagesausgabe II
Kosten der Lösungsoption II:
Einsatz von Mustererkennung
o ~ ? EUR Entwicklungs-/Lizenzkosten
o ~ ? EUR Verarbeitungskosten
o ~ 3,5 Mio. EUR Personalkosten (90%
Effizienzsteigerung)
~ ? Mio. EUR Gesamtkosten
(> 75% Einsparung)
TEIL IV
Ausblick
Ausblick I: Vertiefte Erschließung von Rubriken,
Artikeln, Einzelseiten
Ausblick II: Nutzung von OCR / Vertiefte
Volltextrecherche (im DFG-Viewer)
Ausblick III: Persistente Adressierung
von Artikeln
Ausblick III: Persistente Adressierung
von Einzelseiten

Contenu connexe

Tendances

TU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela MayrTU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela MayrWeb@rchive Austria
 
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt Wien
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt WienSemantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt Wien
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt WienBernhard Krabina
 
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...Philip Griesbacher
 
Monitoring Workshop 2017 - Philip Griesbacher - Iapetos
Monitoring Workshop 2017 - Philip Griesbacher - IapetosMonitoring Workshop 2017 - Philip Griesbacher - Iapetos
Monitoring Workshop 2017 - Philip Griesbacher - IapetosPhilip Griesbacher
 
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizEine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizStefan Keller
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektTill Kinstler
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothekgoobi_org
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH
 
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdfStadt Wien
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleTill Kinstler
 
Semantik MediaWiki als Tool in der Enzyklopädik/Lexikografie
Semantik MediaWiki als Tool in der Enzyklopädik/LexikografieSemantik MediaWiki als Tool in der Enzyklopädik/Lexikografie
Semantik MediaWiki als Tool in der Enzyklopädik/LexikografieBernhard Krabina
 
OpenStreetMap im Einsatz für #CodingDaVinci? Nutzung der Karten, Daten und Di...
OpenStreetMap im Einsatz für #CodingDaVinci?Nutzung der Karten, Daten und Di...OpenStreetMap im Einsatz für #CodingDaVinci?Nutzung der Karten, Daten und Di...
OpenStreetMap im Einsatz für #CodingDaVinci? Nutzung der Karten, Daten und Di...Pascal Neis
 
Goobi an der Univesitätsbibliothek Greifswald
Goobi an der Univesitätsbibliothek GreifswaldGoobi an der Univesitätsbibliothek Greifswald
Goobi an der Univesitätsbibliothek Greifswaldgoobi_org
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 

Tendances (20)

TU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela MayrTU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela Mayr
 
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt Wien
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt WienSemantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt Wien
Semantic MediaWiki als OpenGLAM tool - historisches Lexikon der Stadt Wien
 
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...
Monitoring Workshop Kiel 2016 - Performancedaten Visualisierung mit Grafana /...
 
Monitoring Workshop 2017 - Philip Griesbacher - Iapetos
Monitoring Workshop 2017 - Philip Griesbacher - IapetosMonitoring Workshop 2017 - Philip Griesbacher - Iapetos
Monitoring Workshop 2017 - Philip Griesbacher - Iapetos
 
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizEine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
 
Geodaten in Drupal
Geodaten in DrupalGeodaten in Drupal
Geodaten in Drupal
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source Projekt
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
 
Indicative Natural Hazard Map
Indicative Natural Hazard MapIndicative Natural Hazard Map
Indicative Natural Hazard Map
 
OGD : Lessons learned Geodata
OGD : Lessons learned GeodataOGD : Lessons learned Geodata
OGD : Lessons learned Geodata
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald
 
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
 
Semantik MediaWiki als Tool in der Enzyklopädik/Lexikografie
Semantik MediaWiki als Tool in der Enzyklopädik/LexikografieSemantik MediaWiki als Tool in der Enzyklopädik/Lexikografie
Semantik MediaWiki als Tool in der Enzyklopädik/Lexikografie
 
OpenStreetMap im Einsatz für #CodingDaVinci? Nutzung der Karten, Daten und Di...
OpenStreetMap im Einsatz für #CodingDaVinci?Nutzung der Karten, Daten und Di...OpenStreetMap im Einsatz für #CodingDaVinci?Nutzung der Karten, Daten und Di...
OpenStreetMap im Einsatz für #CodingDaVinci? Nutzung der Karten, Daten und Di...
 
Goobi an der Univesitätsbibliothek Greifswald
Goobi an der Univesitätsbibliothek GreifswaldGoobi an der Univesitätsbibliothek Greifswald
Goobi an der Univesitätsbibliothek Greifswald
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
Kolloquium GE+BIGDATA+REALTIME 2017
Kolloquium GE+BIGDATA+REALTIME 2017Kolloquium GE+BIGDATA+REALTIME 2017
Kolloquium GE+BIGDATA+REALTIME 2017
 

En vedette (20)

Protocolo tecnico para busquedad en la internet
Protocolo tecnico para busquedad en la internetProtocolo tecnico para busquedad en la internet
Protocolo tecnico para busquedad en la internet
 
ImáGenes Sobre Discos
ImáGenes Sobre DiscosImáGenes Sobre Discos
ImáGenes Sobre Discos
 
Congreso internacional upv 2011
Congreso  internacional upv 2011Congreso  internacional upv 2011
Congreso internacional upv 2011
 
Grecia
GreciaGrecia
Grecia
 
Evaluación rahm
Evaluación rahmEvaluación rahm
Evaluación rahm
 
Polpubmap0109
Polpubmap0109Polpubmap0109
Polpubmap0109
 
Abrigos rocosos presentación
Abrigos rocosos presentaciónAbrigos rocosos presentación
Abrigos rocosos presentación
 
Wiki
WikiWiki
Wiki
 
Final
FinalFinal
Final
 
Informatica
InformaticaInformatica
Informatica
 
Ley Dependencia Proteccion De 0 A 3
Ley Dependencia Proteccion De 0 A 3Ley Dependencia Proteccion De 0 A 3
Ley Dependencia Proteccion De 0 A 3
 
PresentacióN En FrancéS Cep
PresentacióN En FrancéS CepPresentacióN En FrancéS Cep
PresentacióN En FrancéS Cep
 
Wiki
WikiWiki
Wiki
 
Eco Lw
Eco LwEco Lw
Eco Lw
 
Lenguajes De ProgramacióN
Lenguajes De ProgramacióNLenguajes De ProgramacióN
Lenguajes De ProgramacióN
 
Tutorial lamina
Tutorial laminaTutorial lamina
Tutorial lamina
 
Fuente de poder
Fuente de poderFuente de poder
Fuente de poder
 
RefundicióN
RefundicióNRefundicióN
RefundicióN
 
Perspectivas Turisticas 2010
Perspectivas Turisticas 2010Perspectivas Turisticas 2010
Perspectivas Turisticas 2010
 
Copia de 04thursday_os_mr_phon_sopha_521412218
Copia de 04thursday_os_mr_phon_sopha_521412218Copia de 04thursday_os_mr_phon_sopha_521412218
Copia de 04thursday_os_mr_phon_sopha_521412218
 

Similaire à Europeana Newspapers German infoday - Semantics

EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Berliner DH Rundgang
Berliner DH RundgangBerliner DH Rundgang
Berliner DH Rundgangcneudecker
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherungintranda GmbH
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022Beat Estermann
 
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dr. Achim Bonte
 
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...ag-digitalisierung
 
Gross denken, schlank produzieren. Kostentreiber der Massendigitalisierung
Gross denken, schlank produzieren. Kostentreiber der MassendigitalisierungGross denken, schlank produzieren. Kostentreiber der Massendigitalisierung
Gross denken, schlank produzieren. Kostentreiber der MassendigitalisierungDr. Achim Bonte
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper
 

Similaire à Europeana Newspapers German infoday - Semantics (20)

EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Berliner DH Rundgang
Berliner DH RundgangBerliner DH Rundgang
Berliner DH Rundgang
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherung
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
Das DFG-Pilotprojekt Virtuelles deutsches UrkundennetzwerkDas DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
Das DFG-Pilotprojekt Virtuelles deutsches Urkundennetzwerk
 
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022
Datenraum für Kultur- und Kulturerbedaten, 15. Nov. 2022
 
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
Dienstleistungen von SLUB und TIB für die digitale Langzeitverfügbarkeit. Ein...
 
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
Gross denken, schlank produzieren. Kostentreiber der Massendigitalisierung
Gross denken, schlank produzieren. Kostentreiber der MassendigitalisierungGross denken, schlank produzieren. Kostentreiber der Massendigitalisierung
Gross denken, schlank produzieren. Kostentreiber der Massendigitalisierung
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
Mühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUCMühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUC
 

Plus de Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayEuropeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayEuropeana Newspapers
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 

Plus de Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Enp lft infoday_neudecker
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudecker
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 

Europeana Newspapers German infoday - Semantics

  • 1. Der Einsatz automatisierter Verfahren zur vertieften Erschließung historischer Zeitungsbestände. Ein DFG- Pilotprojekt der ULB Sachsen- Anhalt Europeana Newspapers Project Information Day Berlin, 27. Februar 2014 Kay Heiligenhaus semantics GmbH, Aachen
  • 3. Digitalisierung des Halleschen Tageblattes ∙Laufzeit von Mai 2013 bis April 2015 ∙Digitalisierung von 117 Bänden unterschiedlichen Formats (vom Original in Farbe) ∙durch Strukturdaten inhaltlich erschlossen ∙durch Fraktur-OCR im Volltext erschlossen ∙persistent adressierbar bis auf Ausgabe-, Artikel- und Seitenebene
  • 4. Digitalisierung des Halleschen Tageblattes Zeitraum Format Anzahl der Bände Anzahl der Seiten 1799 - 1855 Oktav 68 74.280 1856 - 1864 Quart 9 13.611 1865 -1871 Folio 4° 8 11.586 1872 -1892 Folio 2° 32 42.922 Gesamt 117 142.399
  • 6. DFG-Positionspapier (2012): Digitalisierung Ausschuss für Wissen- schaftliche Bibliotheken und Informationssysteme: Die digitale Transformation weiter gestalten – Der Beitrag der Deutschen Forschungs- gemeinschaft zu einer innovativen Informations- infrastruktur für die Forschung, Bonn, 3. Juli 2012. http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
  • 7. DFG-Positionspapier (2012): Förderschwerpunkte Zur weiteren Umsetzung der digitalen Transformation analoger Überlieferung wird sich der Schwerpunkt der Förderaktivitäten im Bereich Digitalisierung nach und nach von Drucken hin zu historischen Zeitungen und unikalem Material […] verschieben. (S. 10)
  • 8. DFG-Positionspapier (2012): Pilotprojekt Zeitungen Bei der […] Förderung von Digitalisierungsmaßnahmen im Bereich historischer Zeitungen […] wird es in erster Linie darum gehen, im Rahmen von Pilotphasen methodische, organisatorische und technische Rahmen- bedingungen […] zu definieren. (S. 10)
  • 9. DFG-Positionspapier (2012): Automatisierung Vor dem Hintergrund technischer Weiterentwicklungen sollte […] eruiert werden, wie automatisierte Verfahren zur vertieften Erschließung […] Anwendung finden können. Dabei soll auch die Entwicklung neuer Methoden, zum Beispiel im Bereich des Machine Learning, gefördert werden. (S. 12)
  • 10. TEIL II Ziele des Projektes
  • 11. Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945 o Zeitungen in der ZDB: ~ 50.000 Titel; o Zeitungen, eingeschränkt auf Deutschland: ~ 30.000 Titel; o Zeitungen, eingeschränkt auf Deutschland vor 1945: ~ 16.000 Titel. http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
  • 12. Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
  • 13. Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
  • 15. Mengengerüst und Kosten: Minimal-Erschließung o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel, ~ 1 Mrd. Seiten) o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8 Stunden/Tag, 250 Arbeitstage/Jahr) o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro Seite) Herausforderung: Reduktion der Erschließungskosten.
  • 17. Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
  • 18. Lösungsoption I: Kernproblem ist die Erkennung von Frakturschriften
  • 19. Kosten der Lösungsoption I: Einsatz von Abbyy Finereader o ~ 10 Mio. EUR Lizenzkosten OCR o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre auf aktueller Server-Hardware) o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung) ~ 17,25 Mio. EUR Gesamtkosten (~ 50% Einsparung)
  • 21. Lösungsoption II: Musterwiederholungen bei periodischen Werken
  • 22. Lösungsoption II: Ermittlung eines Fingerprints
  • 23. Lösungsoption II: Technische Parameter zur Ermittlung des Fingerprints o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen. o Objektgröße o Erosion/Dilation o Position o Objektanzahl(min/max) o 11 Mio. Kombinationen (50 x 15 x 250 x 600) o ~ 1 Seite/Sekunde pro Core
  • 24. Einsatz in der Projekt-Praxis: Automatische Segmentierung eines Jahrgangs
  • 25. Einsatz in der Projekt-Praxis: Qualitätssicherung der segmentierten Jahrgänge
  • 26. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe
  • 27. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe II
  • 28. Kosten der Lösungsoption II: Einsatz von Mustererkennung o ~ ? EUR Entwicklungs-/Lizenzkosten o ~ ? EUR Verarbeitungskosten o ~ 3,5 Mio. EUR Personalkosten (90% Effizienzsteigerung) ~ ? Mio. EUR Gesamtkosten (> 75% Einsparung)
  • 30. Ausblick I: Vertiefte Erschließung von Rubriken, Artikeln, Einzelseiten
  • 31. Ausblick II: Nutzung von OCR / Vertiefte Volltextrecherche (im DFG-Viewer)
  • 32. Ausblick III: Persistente Adressierung von Artikeln
  • 33. Ausblick III: Persistente Adressierung von Einzelseiten