Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Formate für Volltexte

103 vues

Publié le

Digital Humanities Netzwerk, 07-11-2018, Staatsbibliothek zu Berlin

Publié dans : Technologie
  • Login to see the comments

  • Soyez le premier à aimer ceci

Formate für Volltexte

  1. 1. Formate für Volltexte Digital Humanities Netzwerk Staatsbibliothek zu Berlin 7.11.2018
  2. 2. ALTO • ALTO = Analyzed Layout and Text Object • Standard der Library of Congress • Wird meist in Kombination mit METS verwendet • loc.gov/standards/alto/
  3. 3. hOCR • hOCR = Google OCR Format • HTML-basiert • kba.cloud/hocr-spec/1.2/
  4. 4. PAGE • PAGE = Page Analysis and Ground Truth Environment • De-facto Standard für Ground Truth • Verwendung in wiss. Wettbewerben • Verwendung in DFG-Projekt „OCR-D“ • github.com/PRImA-Research-Lab/PAGE-XML
  5. 5. FRXML • FRXML = ABBYY FineReader XML • abbyy.technology/en:features:ocr:xml
  6. 6. TEI • TEI = Text Encoding Initiative • Standard für Transkriptionen, dig. Editionen • Breite Verwendung in den Digital Humanities • tei-c.org • DTABf = Deutsches TextArchiv Basisformat • deutschestextarchiv.de/doku/basisformat/
  7. 7. Text • Plain Text (ohne Markup) • Encoding (z.B. UTF8 vs. ASCII)
  8. 8. Konvertierung • github.com/cneud/ocr-conversion-scripts • digi.bib.uni-mannheim.de/ocr-fileformat/ • Was fehlt noch? PAGE  ALTO ALTO  DTABf (TEI)

×