Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Möglichkeiten (und Probleme)
der Darstellung von Wortfeldern
in lexikalischen Datenbanken
Simon D. Schweitzer
BBAW, Altägyptisches
Wörterbuch

Wortfelder in der ägyptologischen
Praxis: Status quo (I)
• Möglichkeit A: Einzelstudien zu bestimmten
Wortfeldern; die Ergebnisse liegen in Artikeln
oder Monographien vor; z.B.:
– Bickel, S.: Furcht und Schrecken in den Sargtexten.
In: SAK 15, 1988, S. 17-25.
– Franke, D.: Altägyptische
Verwandtschaftsbezeichnungen im Mittleren Reich,
1983.
• Diese Einzelstudien sind i.d.R. in sich
abgeschlossen. Es entwickelt sich keine
Diskussion. Ausnahme: die Farbbezeichnungen:
Beiträge von Schenkel, Baines und Warburton

Wortfelder in der ägyptologischen
Praxis: Status quo (II)
• Möglichkeit B: Sortierung des gesamten
Wortschatzes nach Wortfeldern:
– 6. Band des Wörterbuches: Deutsch-
aegyptisches Wörterverzeichnis in
alphabetischer und sachlicher Ordnung […]
– Hannig, R. & P. Vomberg: Wortschatz der
Pharaonen in Sachgruppen, 1998.

Lexikalische Datenbanken in der
Ägyptologie
• sie befassen sich mit dem gesamten
Wortschatz
• ein Datensatz bietet Informationen zu
einem Wort
• Beispiele:

Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen von allgemeinen Wortfeldern zu
speziellen

Browsen
• Grundannahme: Wortfelder sind hierarchisch
strukturiert
• Ansichten beliebiger Granularität können leicht
erzeugt werden

1. Browsen
2. Die Suche in Wortfeldern nach zeitlichen,
lokalen oder genrespezifischen Kriterien kann
implementiert werden: Wie unterscheidet sich
das Wortfeld [SEHEN] aus dem
memphitischen Raum von dem aus dem
thebanischen? Wie entwickelt sich ein Wortfeld
vom Alt- zum Neuägyptischen? Haben
literarische Texte andere Vertreter eines
Wortfeldes als z.B. Briefe?

1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld

Bisher im TLA:
Suche nach Wort X + Wort Y

oder: Suche nach Wort X + Wortart

Wunsch:
• Wort X + Wortfeld Y
– Beispiel: Unterscheidet sich die Lexik des
Feindevernichtens, ob man nun Asiaten oder
Nubier vernichtet?
• Wortart X + Wortfeld Y
– Beispiel: Werden Bewegungsverben immer
mit m statt Hr in der jw=f-Hr-sDm-Konstruktion
verwendet?

1. Browsen
4. Diachrone Wortfeldentwicklung

Diachrone Wortfeldentwicklung
• viele griechische Lehnwörter im
Koptischen
• Fragestellung: Waren die Wortfelder in der
Zeit direkt vor dem Koptischen so
unausgeglichen, dass die griechischen
Wörter so leicht in der hohen Zahl in das
Koptische eindrangen? Oder verdrängten
die griechischen Wörter ägyptische
Äquivalente in intakten Feldern?

1. Browsen
5. Sprachvergleich

Sprachvergleich
• Welche Wortfelder haben im Ägyptischen
mehr (weniger) Vertreter als in anderen
Sprachen?
• Testen der Sapir-Whorf-Hypothese
(unterschiedliches Abbilden der
außersprachlichen Realität)
• Vorteil der Datenbanken: schnelleres und
effizienteres Suchen

1. Browsen
5. Sprachvergleich
6. Lexikostatistik

Lexikostatistik in der Ägyptologie
• Versuch, den lexikalischen Reichtum
eines Textes quantitativ zu erfassen
• eingeführt von Fritz Hintze, 1975
• das Maß S*: je kleiner S* ist, desto reicher
ist das Vokabular
• bisherige Untersuchungen zu einzelnen
(zumeist literarischen) Texten
• Gesamtvokabular und Teilvokabulare
(nach Wortart) werden betrachtet

Lexikostatistischer Vergleich des
Gesamtwortschatzes einzelner
Texte

Mögliche Fragestellungen
• Ist ein lexikalisch reicher Text auch in
allen verwendeten Wortfeldern lexikalisch
reich?
• Wie reich sind die Wortfelder, zu denen
die Schlüsselwörter eines Textes
gehören? Unterscheidet sich deren
Reichtum von dem anderer Wortfelder?
• Ist der lexikalische Reichtum eines Textes
gleichverteilt?

1. Browsen
5. Sprachvergleich
6. Lexikostatistik
7. Lautsymbolik

Lautsymbolik (I)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft

Lautsymbolik (II)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft
• Nachweis von Schneider
(LingAeg 16, 2008), dass das
verwendete Material in hohem
Maße fehlerdurchsetzt ist: „Bei
einer Gesamtzahl von 18627
Konsonanten (S. 67) bedeutet
das aber, dass die komplette
Argumentationsbasis der
Arbeit entfällt.“

Lautsymbolik (III)
• Die These der Lautsymbolik sollte nicht
anhand von Textsorten, sondern anhand
des Vokabulars der entsprechenden
Wortfelder geprüft werden
• Umfangreiche quantitative Analysen
können nur in lexikalischen Datenbanken
durchgeführt werden

Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren („Taggen“)

Corpusbasiertes Annotieren
• Bei der Erstellung eines Corpus werden
jedem Element verschiedene
Informationen beigefügt.
– Um welches Wort handelt es sich?
Lexikalische Annotation
– Um welche (grammatikalische) Form handelt
es sich? Grammatikalische Annotation
– Zu welchem Bedeutungsfeld ist das Wort zu
zählen? Semantische Annotation

Semantisches Tagging
• UCREL Semantic Analysis System (Projekt der
University of Lancaster)
• http://ucrel.lancs.ac.uk/usas/
• Bisher angewendet für: Englisch, Finnisch und
Russisch
• Neben Lemmatisierung, Wortart,
grammatikalischer Information wird auch
semantisch getaggt.
• Die semantischen Tags sind hierarchisch
gegliedert:

Feingliederung im Lancaster Model

Semantisches Tagging in der
Praxis

Vorteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle

Exkurs
• Warum ist es problematisch, die
semantische Information direkt an ein
Lemma zu hängen?
• Beispiel: pr gehört zum Wortfeld
[GEBÄUDE], aber was ist mit folgendem
Satz:

Vorteile & Nachteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle
• ein sehr hoher
Arbeitsaufwand:
– wollte man nach diesem
Modell das TLA semantisch
taggen, müsste man alle
Texte nachbearbeiten!
• ob das verwendete Modell
semantische Differenzierungen
im Ägyptischen hinreichend
genau abbilden kann, ist
unklar

Generelle Fragen
• Gibt es überhaupt ein metasprachliches
Modell für die Wortfeldstrukturen, das für
alle Sprachen gilt?
• Wie kann man die Wortfelder benennen?
Bringt nicht die Verwendung des
Englischen die Kategorisierung im
Englischen in die untersuchte Sprache
ein?

Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren
2. Lexikonbasiertes Annotieren

Lexikonbasiertes Annotieren
• Einem Lemma werden bestimmte
Informationen hinzugefügt:
– Wortart
– Übersetzung
– hieroglyphische Schreibungen
– semantische Informationen (Wortfeld)
– Beziehungen zu anderen Lemmata

Beziehungen zu anderen Lemmata
• Verweise
– obsolete Ansetzungen werden auf andere Lemmata
verwiesen
• hierarchische Ordnung, z.B.:
– im Wb nach (In-)Transitivität getrennte Einträge
werden einem Oberlemma hierarchisch
untergeordnet
• Bestandteile
– Verknüpfung von Kompositum und verwendeten
Bestandteilen

Beziehungen zu anderen Lemmata
• weitere Möglichkeiten:
– Synonyme, Antonyme, Hyperonyme …

WordNet
• Datenbank zum
englischen
Wortschatz
• seit 1985 in Princeton
• frei verfügbar
• http://wordnet.princeton.edu/
http://wiki.english.ucsb.edu/index.php/File:Wordnet.jpg

WordNet
• verschiedene Implementierungen
• mobiles Wörterbuch:
http://www.mobisystems.com/images/Palm/wordnet_palm.jpg

http://www.wandora.org/wandora/wiki/images/Wordnet_example.gif

Beziehung zwischen Lemmata (I)
http://adimen.si.ehu.es/web/files/WordNet2TCO/TCO2.3FirstEntity.png

Beziehung zwischen Lemmata (II)
http://dingo.sbs.arizona.edu/~sandiway/wnconnect/wnconnectex2.png

Beziehung zwischen Lemmata (III)
Kamps, Jaap: Visualizing WordNet Structure

Vorteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand

Vorteile & Nachteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand
• Ob (synchron gedachte)
Relationen auch für diachrone
Zusammenhänge verwendet
werden können, ist unklar.
• Sprachübergreifende Studien
sind kaum möglich.
• Umgang mit
Mehrworteinheiten
• semantische Variationsbreite
eines Lemma ist schlecht
abbildbar

Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.

Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.
• Nur wenn die Felder in Beziehung gesetzt
werden, ist das gewünschte Browsen
möglich!

Taggen
• Warum ist es wichtig, dass man einem
Textwort bzw. einem Lemma mehrere
semantische Tags zuweisen kann?

Nahrungsmittel?
Aber was ist mit Äpfeln, Kuchen, Zwiebeln, Schinken…?

Aal
• folgende Tags sind denkbar:
– Fisch
– Nahrungsmittel
– feindliches Wesen
– …
– vielleicht auch:
• literarisches Motiv
• Metapher für …

Wortfelder / semantische Tags
• das Vokabular muss einheitlich sein (es darf
nicht einmal [SEHEN] und einmal [SCHAUEN]
heißen)
• die semantischen Tags müssen verknüpft sein
• diese Verknüpfungen müssen ebenfalls
standardisiert sein
• alle Tags sind auf alle Wörter anzuwenden
– (wenn man beim Aal ein Tag „literarisches Motiv“
ansetzt, ist bei allen anderen Wörtern zu prüfen, ob
sie auch mit diesem Tag annotiert werden können)

Darstellung der Wortfeldmitglieder
• konventionell: alphabetische Liste
• Prototypensemantik:
– Es gibt typische Vertreter eines Feldes und
weniger typische: 3 ist typischer Vertreter für
[UNGERADE ZAHLEN], 875467397 hingegen
nicht.
– Wie bildet man dies ab?

Tag cloud
http://tinysubversions.com/tag_cloud.png

Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Recommandé

Recommandé

Contenu connexe

Similaire à Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Similaire à Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken (17)

Plus de simondschweitzer

Plus de simondschweitzer (8)

Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken