Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Digitalisierte Zeitungen & 
die Digital Humanities – 
Probleme und Chancen 
Europeana Newspapers Information Day 
16. Okto...
“Big data?” 
Immer größere Mengen an digitalisierten Zeitungen stehen in 
digitaler Form für die Forschung bereit. 
• Chro...
Europeana Newspapers: Drei Portale 
• Europeana Newspapers Content Browser: 
http://www.theeuropeanlibrary.org/tel4/newspa...
Neu! Objektpräsentation direkt in der Europeana 
• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095...
ABER… 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness a...
Nur die Spitze des Eisbergs 
Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ 
This project i...
Wieviel ist insgesamt schon digitalisiert? 
This project is partially funded under the ICT Policy Support Programme (ICT P...
Digitalisierte Zeitungen 
Quelle: European Newspapers Survey Report 
http://www.europeana-newspapers.eu/wp-content/uploads...
Mission impossible? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Com...
Ein kleiner Vergleich… 
Geschätzte Kosten für die 
Digitalisierung sämtlicher 
Objekte in Bibliotheken, 
Archiven und Muse...
Problemfelder 
• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen 
• Keine ausreichenden Ressourcen für die vollständ...
Wie also damit umgehen? 
• Ist es überhaupt möglich auf dieser Datengrundlage eine 
repräsentative Aussagen z.B. durch ein...
Labs to the rescue? 
Pieter Francois, Gewinner der British 
Library Labs competition 2013 hat sich 
genau diese Frage gest...
Was ist “gut genug”? 
Digging into Data Project “Trading Consequences” 
“Welche Auswirkungen haben OCR Fehler beim Text Mi...
Statistik, Statistik, Statistik 
10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des 
Korpus ignoriert man wenn m...
Vorbild Trove 
API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse 
statistische Anwendungen & Präsentationsmögl...
Das „Hathi Trust Model“ 
Hathi Trust Digital Library/Research Center 
(Aggregator aller US Google-Partner) stellt für durc...
Es gibt viel zu tun…packen wir es an! 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) a...
Danke für Ihre Aufmerksamkeit! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newsp...
Prochain SlideShare
Chargement dans…5
×

Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

589 vues

Publié le

Europeana Newspapers Information Day, 16 October 2014, Vienna, Austria

Publié dans : Technologie
  • Ich kann eine Website empfehlen. Er hat mir wirklich geholfen. ⇒ www.WritersHilfe.com ⇐ Zufrieden und beeindruckt.
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • Soyez le premier à aimer ceci

Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

  1. 1. Digitalisierte Zeitungen & die Digital Humanities – Probleme und Chancen Europeana Newspapers Information Day 16. Oktober 2014, Wien, ÖNB Clemens Neudecker, Staatsbibliothek zu Berlin @cneudecker
  2. 2. “Big data?” Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit. • Chronicling America: 8,148,101 Seiten • Trove (Australien): 137,247,947 Zeitungsartikel • ANNO: 13 Millionen Seiten • Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  3. 3. Europeana Newspapers: Drei Portale • Europeana Newspapers Content Browser: http://www.theeuropeanlibrary.org/tel4/newspapers • Europeana Portal: http://europeana.eu/portal/ • Zeitschriftendatenbank: http://www.zeitschriftendatenbank.de/suche/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3
  4. 4. Neu! Objektpräsentation direkt in der Europeana • http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html Neues Interface für die Objektanzeige Public domain Anzeige in der Digitalen Bibliothek This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 4
  5. 5. ABER… This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5
  6. 6. Nur die Spitze des Eisbergs Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6
  7. 7. Wieviel ist insgesamt schon digitalisiert? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  8. 8. Digitalisierte Zeitungen Quelle: European Newspapers Survey Report http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 8
  9. 9. Mission impossible? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  10. 10. Ein kleiner Vergleich… Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen: €100 Milliarden Oder €10 Milliarden/Jahr für die nächsten 10 Jahre! Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 40% der Entwicklungskosten des JSF benötigt. Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  11. 11. Problemfelder • Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen • Keine ausreichenden Ressourcen für die vollständige Digitalisierung • Fehler und Probleme bei der Digitalisierung, z.B. • Schlechte Qualität der OCR • Unvollständige oder fehlerhafte Metadaten • Unterschiedliche Lizenzmodelle • “Copyright Cliff of Death” (@wragge) • Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten) • Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  12. 12. Wie also damit umgehen? • Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Quelle: http://dilbert.com/strips/comic/2001-10-25/
  13. 13. Labs to the rescue? Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt: “How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library labs.bl.uk/Sample+Generator collections?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  14. 14. Was ist “gut genug”? Digging into Data Project “Trading Consequences” “Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14
  15. 15. Statistik, Statistik, Statistik 10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet? http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 15
  16. 16. Vorbild Trove API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten: This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 16 Trove newspapers word count app
  17. 17. Das „Hathi Trust Model“ Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.: • Wortfrequenz (pro Seite/Überschriften/Fußnoten) • Anzahl Zeilen/Sätze • Zeichenanzahl Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 17
  18. 18. Es gibt viel zu tun…packen wir es an! This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 18
  19. 19. Danke für Ihre Aufmerksamkeit! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/

×