Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Daten- und Metadatenstandards
Sommersemester 2013
29. Mai 2013 – Die Text Encoding Initiative (TEI)
2. „Die Text Encoding Initiative (TEI)“
Frage- und Problemstellung
Die TEI und ihre Intention
Konsortium und Standard
Eine kurze (Versions)Geschichte der TEI
Elemente der TEI
Praxis:
Einen nach den Regeln der TEI ausgezeichneten Text
erweitern
Zugriff auf ein TEI-konformes XML-Dokument mit XSLT &
Co.
Sitzungsüberblick
3. Frage- und Problemstellung:
Wie lassen sich mit einem Standard
sämtliche in den Geisteswissenschaften
zu behandelnden Texte beschreiben?
4. Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
5. Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
Vers
Strophe
9. Glenn Ligon (b. 1960), Untitled (I Am a Man), 1988. Oil and enamel on canvas. 40 × 25
in. (101.6 × 63.5 cm). http://whitney.org/WatchAndListen/AudioGuides?play_id=370
11. Eine Lösung: TEI (Text Encoding Initiative)
Fokus: Text
TEI bezeichnet sowohl
das Konsortium (TEI-C),
als auch einen Standard zur Kodierung und zum Austausch von
Textdokumenten
„TEI hat ein unabhängiges, portables und offenes Format [für die]
Speicherung, Austausch und Analyse von Texten in den
Geisteswissenschaften entwickelt. Das konkrete Resultat dieser
Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher
Textsorten als auch das Textkodierungsformat selber.“
(http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)
Richtlinien und Format sind frei zugänglich und kostenlos
Text Encoding Initiative (TEI)
12. Geschichte:
1987 entstanden als internationale Initiative von
Philologinnen und Philologen
Dokumentenformat zur Repräsentation von Texten in
digitaler Form
Vielseitigkeit & Praxisnähe
Differenzierung: TEI bezeichnet sowohl
das Konsortium (TEI-C), 2000 gegründet
als auch Richtlinien und Empfehlungen zur Kodierung
und zum Austausch von Textdokumenten.
Intention: Geisteswissenschaftlerinnen und
Geisteswissenschaftler sollen über größtmögliche Freiheit
verfügen, textuell vorliegende Information nach eigenem
Textbegriff in XML zu codieren.
Text Encoding Initiative (TEI)
14. Standards und Guidelines
Standards der TEI schränken die schier unendlichen
Auszeichnungsmöglichkeiten von XML ein. Dabei stellen
sich die folgenden Grundfragen:
Welche Tags und welche Attribute lassen sich verwenden,
um eigene Texte auszuzeichnen?
Wie lassen sich die Tags miteinander kombinieren /
verschachteln?
Überblick über Richtlinien, z.B. für TEI P5: http://www.tei-
c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641
Seiten)
Die Text Encoding Initiative
15. Modularisierung
Flexible Auswahl von TEI-Elementen aufgrund des
modularen Charakters der TEI. So muss ein eigenes
Schema nicht alle Elemente und Attribute der TEI
enthalten.
Module, u.a.:
core für Basiselemente
header für Metadaten
textstructure für grundlegende Textstrukturen
drama für Dramen
prose, poetry, etc.
Die Text Encoding Initiative
16. TEI und oXygen:
Alternativ: Angepasste Schemata generieren mit
http://www.tei-c.org/Roma
Die Text Encoding Initiative
17. Verortung:
Die Text Encoding Initiative
EAD: Encoded Archival Description
METS: Metadata Encoding and Transmission Standard
19. Aufbau und Elemente eines
TEI-Dokumentes:
Wurzelelement: <TEI>
Enthält mindestens
<teiHeader> (obligatorisch)
<text>
und / oder
<facsimile> (Verknüpfung mit
Bildmaterialien)
oder
<fsdDecl> (u.a. für Textanalysen)
Die Text Encoding Initiative
20. <teiHeader>
Enthält Metadaten zum Text: Autorin / Autor, Titel,
Erstellungsdatum, etc.
Vier Teile:
<fileDesc> (obligatorisch)
<encodingDesc> (fakultativ)
<profileDesc> (fakultativ)
<revisionDesc> (fakultativ)
Die Text Encoding Initiative
21. <fileDesc>
Bibliographische Beschreibung
des TEI-Dokumentes (Autor, Titel,
Editor, Projekt, Erstellungsdatum
usw.)
Beschreibung der Quelle(n), einer
Handschrift, eines Archivguts usw.
Muss enthalten:
<titleStmt>, <publicationStmt>,
<sourceDesc>
Kann enthalten:
<editionStmt>, <extent>,
<seriesStmt>, <notesStmt>
Die Text Encoding Initiative
22. Grundlage der folgenden Übungen ist Goethes Elegie „Alexis und Dora“, wie sie
sich unter http://ora-
web.swkk.de/digimo_online/digimo.entry?source=digimo.Digitalisat_anzeigen&a_i
d=4557&p_ab=0 findet.
Erstellen Sie in „oXygen“ ein TEI-Dokument nach der Vorlage „TEI P5 All“.
Bilden Sie den Titel „Alexis und Dora“ und den Namen des Autors („Johann
Wolfgang von Goethe“) über <titleStmt> ab.
Füllen Sie <publicationStmt> mit einer kurzen Beschreibung über Ihr
Codierungsprojekt.
Das Gedicht findet sich im 1797 von Friedrich Schiller herausgegebenen, in
Tübingen veröffentlichten, „Musen-Almanach“. Bilden Sie diese
bibliographischen Informationen über <sourceDesc> ab.
Tipp: Ein Codierungsbeispiel für Hugo von Hofmannsthals „Die Beiden“ findet sich
unter http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html. Informationen
zu den TEI-Elementen lassen sich unter http://www.tei-c.org/release/doc/tei-p5-
doc/de/html/ref-publicationStmt.html aufrufen.
Übung I
23. <text>
Enthält den eigentlichen Text:
<body> (obligatorisch)
<front> und / oder <back> (fakultativ)
Gliederungselemente in <body>:
<div> Abschnitte im Dokument (Kapitel, unterschiedliche
Gedichte, etc.). Attribute:
n (Nummerierung)
type („book“, „chapter“, „poem“)
<head> (Kopfbereich, Beschreibung des (hier:) Gedichtes)
<lg> (Line Group), Abschnitte des Gedichtes (i.e. Strophen)
type („stanza“, „para“, etc. Vgl.: http://www.tei-c.org/release/doc/tei-
p5-doc/en/html/examples-lg.html)
<l> (Line), Verse des Gedichtes
Die Text Encoding Initiative
24. Bilden Sie die Verse und Strophen der Elegie
„Alexis und Dora“ mit Ihrem TEI-Dokument ab.
Fortgeschritten (!): Erstellen Sie ein XSLT-
Stylesheet, das aus dem TEI-Dokument ein
HTML-Dokument erstellt.
Übung II