Dating Egyptian Literary Texts: Lexical Approaches
Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken
1. Möglichkeiten (und Probleme)
der Darstellung von Wortfeldern
in lexikalischen Datenbanken
Simon D. Schweitzer
BBAW, Altägyptisches
Wörterbuch
2. Wortfelder in der ägyptologischen
Praxis: Status quo (I)
• Möglichkeit A: Einzelstudien zu bestimmten
Wortfeldern; die Ergebnisse liegen in Artikeln
oder Monographien vor; z.B.:
– Bickel, S.: Furcht und Schrecken in den Sargtexten.
In: SAK 15, 1988, S. 17-25.
– Franke, D.: Altägyptische
Verwandtschaftsbezeichnungen im Mittleren Reich,
1983.
• Diese Einzelstudien sind i.d.R. in sich
abgeschlossen. Es entwickelt sich keine
Diskussion. Ausnahme: die Farbbezeichnungen:
Beiträge von Schenkel, Baines und Warburton
3. Wortfelder in der ägyptologischen
Praxis: Status quo (II)
• Möglichkeit B: Sortierung des gesamten
Wortschatzes nach Wortfeldern:
– 6. Band des Wörterbuches: Deutsch-
aegyptisches Wörterverzeichnis in
alphabetischer und sachlicher Ordnung […]
– Hannig, R. & P. Vomberg: Wortschatz der
Pharaonen in Sachgruppen, 1998.
4. Lexikalische Datenbanken in der
Ägyptologie
• sie befassen sich mit dem gesamten
Wortschatz
• ein Datensatz bietet Informationen zu
einem Wort
• Beispiele:
11. Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Die Suche in Wortfeldern nach zeitlichen,
lokalen oder genrespezifischen Kriterien kann
implementiert werden: Wie unterscheidet sich
das Wortfeld [SEHEN] aus dem
memphitischen Raum von dem aus dem
thebanischen? Wie entwickelt sich ein Wortfeld
vom Alt- zum Neuägyptischen? Haben
literarische Texte andere Vertreter eines
Wortfeldes als z.B. Briefe?
15. Wunsch:
• Wort X + Wortfeld Y
– Beispiel: Unterscheidet sich die Lexik des
Feindevernichtens, ob man nun Asiaten oder
Nubier vernichtet?
• Wortart X + Wortfeld Y
– Beispiel: Werden Bewegungsverben immer
mit m statt Hr in der jw=f-Hr-sDm-Konstruktion
verwendet?
16. Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
17. Diachrone Wortfeldentwicklung
• viele griechische Lehnwörter im
Koptischen
• Fragestellung: Waren die Wortfelder in der
Zeit direkt vor dem Koptischen so
unausgeglichen, dass die griechischen
Wörter so leicht in der hohen Zahl in das
Koptische eindrangen? Oder verdrängten
die griechischen Wörter ägyptische
Äquivalente in intakten Feldern?
18. Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
19. Sprachvergleich
• Welche Wortfelder haben im Ägyptischen
mehr (weniger) Vertreter als in anderen
Sprachen?
• Testen der Sapir-Whorf-Hypothese
(unterschiedliches Abbilden der
außersprachlichen Realität)
• Vorteil der Datenbanken: schnelleres und
effizienteres Suchen
20. Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
6. Lexikostatistik
21. Lexikostatistik in der Ägyptologie
• Versuch, den lexikalischen Reichtum
eines Textes quantitativ zu erfassen
• eingeführt von Fritz Hintze, 1975
• das Maß S*: je kleiner S* ist, desto reicher
ist das Vokabular
• bisherige Untersuchungen zu einzelnen
(zumeist literarischen) Texten
• Gesamtvokabular und Teilvokabulare
(nach Wortart) werden betrachtet
23. Mögliche Fragestellungen
• Ist ein lexikalisch reicher Text auch in
allen verwendeten Wortfeldern lexikalisch
reich?
• Wie reich sind die Wortfelder, zu denen
die Schlüsselwörter eines Textes
gehören? Unterscheidet sich deren
Reichtum von dem anderer Wortfelder?
• Ist der lexikalische Reichtum eines Textes
gleichverteilt?
24. Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
6. Lexikostatistik
7. Lautsymbolik
25. Lautsymbolik (I)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft
26. Lautsymbolik (II)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft
• Nachweis von Schneider
(LingAeg 16, 2008), dass das
verwendete Material in hohem
Maße fehlerdurchsetzt ist: „Bei
einer Gesamtzahl von 18627
Konsonanten (S. 67) bedeutet
das aber, dass die komplette
Argumentationsbasis der
Arbeit entfällt.“
27. Lautsymbolik (III)
• Die These der Lautsymbolik sollte nicht
anhand von Textsorten, sondern anhand
des Vokabulars der entsprechenden
Wortfelder geprüft werden
• Umfangreiche quantitative Analysen
können nur in lexikalischen Datenbanken
durchgeführt werden
28. Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren („Taggen“)
29. Corpusbasiertes Annotieren
• Bei der Erstellung eines Corpus werden
jedem Element verschiedene
Informationen beigefügt.
– Um welches Wort handelt es sich?
Lexikalische Annotation
– Um welche (grammatikalische) Form handelt
es sich? Grammatikalische Annotation
– Zu welchem Bedeutungsfeld ist das Wort zu
zählen? Semantische Annotation
30. Semantisches Tagging
• UCREL Semantic Analysis System (Projekt der
University of Lancaster)
• http://ucrel.lancs.ac.uk/usas/
• Bisher angewendet für: Englisch, Finnisch und
Russisch
• Neben Lemmatisierung, Wortart,
grammatikalischer Information wird auch
semantisch getaggt.
• Die semantischen Tags sind hierarchisch
gegliedert:
34. Vorteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle
35. Exkurs
• Warum ist es problematisch, die
semantische Information direkt an ein
Lemma zu hängen?
• Beispiel: pr gehört zum Wortfeld
[GEBÄUDE], aber was ist mit folgendem
Satz:
37. Vorteile & Nachteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle
• ein sehr hoher
Arbeitsaufwand:
– wollte man nach diesem
Modell das TLA semantisch
taggen, müsste man alle
Texte nachbearbeiten!
• ob das verwendete Modell
semantische Differenzierungen
im Ägyptischen hinreichend
genau abbilden kann, ist
unklar
38. Generelle Fragen
• Gibt es überhaupt ein metasprachliches
Modell für die Wortfeldstrukturen, das für
alle Sprachen gilt?
• Wie kann man die Wortfelder benennen?
Bringt nicht die Verwendung des
Englischen die Kategorisierung im
Englischen in die untersuchte Sprache
ein?
39. Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren
2. Lexikonbasiertes Annotieren
40. Lexikonbasiertes Annotieren
• Einem Lemma werden bestimmte
Informationen hinzugefügt:
– Wortart
– Übersetzung
– hieroglyphische Schreibungen
– semantische Informationen (Wortfeld)
– Beziehungen zu anderen Lemmata
41. Beziehungen zu anderen Lemmata
• Verweise
– obsolete Ansetzungen werden auf andere Lemmata
verwiesen
• hierarchische Ordnung, z.B.:
– im Wb nach (In-)Transitivität getrennte Einträge
werden einem Oberlemma hierarchisch
untergeordnet
• Bestandteile
– Verknüpfung von Kompositum und verwendeten
Bestandteilen
42. Beziehungen zu anderen Lemmata
• weitere Möglichkeiten:
– Synonyme, Antonyme, Hyperonyme …
49. Vorteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand
50. Vorteile & Nachteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand
• Ob (synchron gedachte)
Relationen auch für diachrone
Zusammenhänge verwendet
werden können, ist unklar.
• Sprachübergreifende Studien
sind kaum möglich.
• Umgang mit
Mehrworteinheiten
• semantische Variationsbreite
eines Lemma ist schlecht
abbildbar
51. Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.
53. Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.
• Nur wenn die Felder in Beziehung gesetzt
werden, ist das gewünschte Browsen
möglich!
54. Taggen
• Warum ist es wichtig, dass man einem
Textwort bzw. einem Lemma mehrere
semantische Tags zuweisen kann?
57. Wortfelder / semantische Tags
• das Vokabular muss einheitlich sein (es darf
nicht einmal [SEHEN] und einmal [SCHAUEN]
heißen)
• die semantischen Tags müssen verknüpft sein
• diese Verknüpfungen müssen ebenfalls
standardisiert sein
• alle Tags sind auf alle Wörter anzuwenden
– (wenn man beim Aal ein Tag „literarisches Motiv“
ansetzt, ist bei allen anderen Wörtern zu prüfen, ob
sie auch mit diesem Tag annotiert werden können)
58. Darstellung der Wortfeldmitglieder
• konventionell: alphabetische Liste
• Prototypensemantik:
– Es gibt typische Vertreter eines Feldes und
weniger typische: 3 ist typischer Vertreter für
[UNGERADE ZAHLEN], 875467397 hingegen
nicht.
– Wie bildet man dies ab?