SlideShare une entreprise Scribd logo
1  sur  60
Möglichkeiten (und Probleme)
der Darstellung von Wortfeldern
in lexikalischen Datenbanken
Simon D. Schweitzer
BBAW, Altägyptisches
Wörterbuch
Wortfelder in der ägyptologischen
Praxis: Status quo (I)
• Möglichkeit A: Einzelstudien zu bestimmten
Wortfeldern; die Ergebnisse liegen in Artikeln
oder Monographien vor; z.B.:
– Bickel, S.: Furcht und Schrecken in den Sargtexten.
In: SAK 15, 1988, S. 17-25.
– Franke, D.: Altägyptische
Verwandtschaftsbezeichnungen im Mittleren Reich,
1983.
• Diese Einzelstudien sind i.d.R. in sich
abgeschlossen. Es entwickelt sich keine
Diskussion. Ausnahme: die Farbbezeichnungen:
Beiträge von Schenkel, Baines und Warburton
Wortfelder in der ägyptologischen
Praxis: Status quo (II)
• Möglichkeit B: Sortierung des gesamten
Wortschatzes nach Wortfeldern:
– 6. Band des Wörterbuches: Deutsch-
aegyptisches Wörterverzeichnis in
alphabetischer und sachlicher Ordnung […]
– Hannig, R. & P. Vomberg: Wortschatz der
Pharaonen in Sachgruppen, 1998.
Lexikalische Datenbanken in der
Ägyptologie
• sie befassen sich mit dem gesamten
Wortschatz
• ein Datensatz bietet Informationen zu
einem Wort
• Beispiele:
Beinlichliste
Ägyptologische Datenbank AHA
Ramses
Thesaurus Linguae Aegyptiae
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen von allgemeinen Wortfeldern zu
speziellen
Browsen
• Grundannahme: Wortfelder sind hierarchisch
strukturiert
• Ansichten beliebiger Granularität können leicht
erzeugt werden
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Die Suche in Wortfeldern nach zeitlichen,
lokalen oder genrespezifischen Kriterien kann
implementiert werden: Wie unterscheidet sich
das Wortfeld [SEHEN] aus dem
memphitischen Raum von dem aus dem
thebanischen? Wie entwickelt sich ein Wortfeld
vom Alt- zum Neuägyptischen? Haben
literarische Texte andere Vertreter eines
Wortfeldes als z.B. Briefe?
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
Bisher im TLA:
Suche nach Wort X + Wort Y
oder: Suche nach Wort X + Wortart
Wunsch:
• Wort X + Wortfeld Y
– Beispiel: Unterscheidet sich die Lexik des
Feindevernichtens, ob man nun Asiaten oder
Nubier vernichtet?
• Wortart X + Wortfeld Y
– Beispiel: Werden Bewegungsverben immer
mit m statt Hr in der jw=f-Hr-sDm-Konstruktion
verwendet?
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
Diachrone Wortfeldentwicklung
• viele griechische Lehnwörter im
Koptischen
• Fragestellung: Waren die Wortfelder in der
Zeit direkt vor dem Koptischen so
unausgeglichen, dass die griechischen
Wörter so leicht in der hohen Zahl in das
Koptische eindrangen? Oder verdrängten
die griechischen Wörter ägyptische
Äquivalente in intakten Feldern?
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
Sprachvergleich
• Welche Wortfelder haben im Ägyptischen
mehr (weniger) Vertreter als in anderen
Sprachen?
• Testen der Sapir-Whorf-Hypothese
(unterschiedliches Abbilden der
außersprachlichen Realität)
• Vorteil der Datenbanken: schnelleres und
effizienteres Suchen
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
6. Lexikostatistik
Lexikostatistik in der Ägyptologie
• Versuch, den lexikalischen Reichtum
eines Textes quantitativ zu erfassen
• eingeführt von Fritz Hintze, 1975
• das Maß S*: je kleiner S* ist, desto reicher
ist das Vokabular
• bisherige Untersuchungen zu einzelnen
(zumeist literarischen) Texten
• Gesamtvokabular und Teilvokabulare
(nach Wortart) werden betrachtet
Lexikostatistischer Vergleich des
Gesamtwortschatzes einzelner
Texte
Mögliche Fragestellungen
• Ist ein lexikalisch reicher Text auch in
allen verwendeten Wortfeldern lexikalisch
reich?
• Wie reich sind die Wortfelder, zu denen
die Schlüsselwörter eines Textes
gehören? Unterscheidet sich deren
Reichtum von dem anderer Wortfelder?
• Ist der lexikalische Reichtum eines Textes
gleichverteilt?
Wortfelder in Datenbanken:
Marktlücken in der Ägyptologie
1. Browsen
2. Einschränkungen in der Suche
3. Suchmöglichkeit Wort X + Wortfeld
4. Diachrone Wortfeldentwicklung
5. Sprachvergleich
6. Lexikostatistik
7. Lautsymbolik
Lautsymbolik (I)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft
Lautsymbolik (II)
• eingeführt von Sabine Albers,
2008
• These: die lautliche Struktur
eines Wortes ist nicht
willkürlich, sondern hängt von
der Semantik ab
• Freude werde vorrangig hart
artikuliert (Plosiva: p, t, k, q)
• Trauer werde vorrangig weich
artikuliert (Nasale: m, n)
• These wurde anhand von
bestimmten Textsorten geprüft
• Nachweis von Schneider
(LingAeg 16, 2008), dass das
verwendete Material in hohem
Maße fehlerdurchsetzt ist: „Bei
einer Gesamtzahl von 18627
Konsonanten (S. 67) bedeutet
das aber, dass die komplette
Argumentationsbasis der
Arbeit entfällt.“
Lautsymbolik (III)
• Die These der Lautsymbolik sollte nicht
anhand von Textsorten, sondern anhand
des Vokabulars der entsprechenden
Wortfelder geprüft werden
• Umfangreiche quantitative Analysen
können nur in lexikalischen Datenbanken
durchgeführt werden
Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren („Taggen“)
Corpusbasiertes Annotieren
• Bei der Erstellung eines Corpus werden
jedem Element verschiedene
Informationen beigefügt.
– Um welches Wort handelt es sich?
Lexikalische Annotation
– Um welche (grammatikalische) Form handelt
es sich? Grammatikalische Annotation
– Zu welchem Bedeutungsfeld ist das Wort zu
zählen? Semantische Annotation
Semantisches Tagging
• UCREL Semantic Analysis System (Projekt der
University of Lancaster)
• http://ucrel.lancs.ac.uk/usas/
• Bisher angewendet für: Englisch, Finnisch und
Russisch
• Neben Lemmatisierung, Wortart,
grammatikalischer Information wird auch
semantisch getaggt.
• Die semantischen Tags sind hierarchisch
gegliedert:
Hauptkategorien in USAS
Feingliederung im Lancaster Model
Semantisches Tagging in der
Praxis
Vorteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle
Exkurs
• Warum ist es problematisch, die
semantische Information direkt an ein
Lemma zu hängen?
• Beispiel: pr gehört zum Wortfeld
[GEBÄUDE], aber was ist mit folgendem
Satz:
pUC 32213, vso. 13-16
Vorteile & Nachteile
• es gibt ein Modell, das auf den
gesamten Wortschatz
anwendbar ist
• das Modell ist nicht auf eine
Sprache beschränkt =>
sprachübergreifende Studien
sind möglich
• man kann einem Wort mehrere
Tags zuweisen
• eine semantische Einheit kann
aus mehreren Wörtern
bestehen
• die Semantik hängt nicht am
Lemma, sondern an einer
bestimmten Textstelle
• ein sehr hoher
Arbeitsaufwand:
– wollte man nach diesem
Modell das TLA semantisch
taggen, müsste man alle
Texte nachbearbeiten!
• ob das verwendete Modell
semantische Differenzierungen
im Ägyptischen hinreichend
genau abbilden kann, ist
unklar
Generelle Fragen
• Gibt es überhaupt ein metasprachliches
Modell für die Wortfeldstrukturen, das für
alle Sprachen gilt?
• Wie kann man die Wortfelder benennen?
Bringt nicht die Verwendung des
Englischen die Kategorisierung im
Englischen in die untersuchte Sprache
ein?
Wie gelangt die Information
„Wortfeld“ in die Datenbank?
• 2 Ansätze:
1. Corpusbasiertes Annotieren
2. Lexikonbasiertes Annotieren
Lexikonbasiertes Annotieren
• Einem Lemma werden bestimmte
Informationen hinzugefügt:
– Wortart
– Übersetzung
– hieroglyphische Schreibungen
– semantische Informationen (Wortfeld)
– Beziehungen zu anderen Lemmata
Beziehungen zu anderen Lemmata
• Verweise
– obsolete Ansetzungen werden auf andere Lemmata
verwiesen
• hierarchische Ordnung, z.B.:
– im Wb nach (In-)Transitivität getrennte Einträge
werden einem Oberlemma hierarchisch
untergeordnet
• Bestandteile
– Verknüpfung von Kompositum und verwendeten
Bestandteilen
Beziehungen zu anderen Lemmata
• weitere Möglichkeiten:
– Synonyme, Antonyme, Hyperonyme …
WordNet
• Datenbank zum
englischen
Wortschatz
• seit 1985 in Princeton
• frei verfügbar
• http://wordnet.princeton.edu/
http://wiki.english.ucsb.edu/index.php/File:Wordnet.jpg
WordNet
• verschiedene Implementierungen
• mobiles Wörterbuch:
http://www.mobisystems.com/images/Palm/wordnet_palm.jpg
http://www.wandora.org/wandora/wiki/images/Wordnet_example.gif
Beziehung zwischen Lemmata (I)
http://adimen.si.ehu.es/web/files/WordNet2TCO/TCO2.3FirstEntity.png
Beziehung zwischen Lemmata (II)
http://dingo.sbs.arizona.edu/~sandiway/wnconnect/wnconnectex2.png
Beziehung zwischen Lemmata (III)
Kamps, Jaap: Visualizing WordNet Structure
Vorteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand
Vorteile & Nachteile
• strukturelle Erschließung
des Wortschatzes
• Angabe der Relation
zwischen Lemmata
• mehrere
Beziehungsangaben pro
Wort möglich
• im Vergleich zum
textstellenbasierten
Ansatz geringerer
Arbeitsaufwand
• Ob (synchron gedachte)
Relationen auch für diachrone
Zusammenhänge verwendet
werden können, ist unklar.
• Sprachübergreifende Studien
sind kaum möglich.
• Umgang mit
Mehrworteinheiten
• semantische Variationsbreite
eines Lemma ist schlecht
abbildbar
Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.
Taxonomie
Umgang mit semantischen
Angaben in Datenbanken
• Taggen des Textwortes bzw. des Lemma
reicht nicht aus!
• Die Wortfelder müssen auch
untereinander strukturiert werden.
• Nur wenn die Felder in Beziehung gesetzt
werden, ist das gewünschte Browsen
möglich!
Taggen
• Warum ist es wichtig, dass man einem
Textwort bzw. einem Lemma mehrere
semantische Tags zuweisen kann?
Nahrungsmittel?
Aber was ist mit Äpfeln, Kuchen, Zwiebeln, Schinken…?
Aal
• folgende Tags sind denkbar:
– Fisch
– Nahrungsmittel
– feindliches Wesen
– …
– vielleicht auch:
• literarisches Motiv
• Metapher für …
Wortfelder / semantische Tags
• das Vokabular muss einheitlich sein (es darf
nicht einmal [SEHEN] und einmal [SCHAUEN]
heißen)
• die semantischen Tags müssen verknüpft sein
• diese Verknüpfungen müssen ebenfalls
standardisiert sein
• alle Tags sind auf alle Wörter anzuwenden
– (wenn man beim Aal ein Tag „literarisches Motiv“
ansetzt, ist bei allen anderen Wörtern zu prüfen, ob
sie auch mit diesem Tag annotiert werden können)
Darstellung der Wortfeldmitglieder
• konventionell: alphabetische Liste
• Prototypensemantik:
– Es gibt typische Vertreter eines Feldes und
weniger typische: 3 ist typischer Vertreter für
[UNGERADE ZAHLEN], 875467397 hingegen
nicht.
– Wie bildet man dies ab?
wortschatz.uni-leipzig.de
Tag cloud
http://tinysubversions.com/tag_cloud.png

Contenu connexe

Similaire à Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

Nimetska mova-8-klas-basai-2021
Nimetska mova-8-klas-basai-2021Nimetska mova-8-klas-basai-2021
Nimetska mova-8-klas-basai-2021kreidaros1
 
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчанняПідручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання12Балів ГДЗ
 
Historische und etymologische Wörterbücher
Historische und etymologische WörterbücherHistorische und etymologische Wörterbücher
Historische und etymologische WörterbücherJelena Kostic-Tomovic
 
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...Jelena Kostic-Tomovic
 
05 Aspekte des Schriftspracherwerbs, Stufenmodelle
05 Aspekte des Schriftspracherwerbs, Stufenmodelle05 Aspekte des Schriftspracherwerbs, Stufenmodelle
05 Aspekte des Schriftspracherwerbs, Stufenmodellejoness6
 
06 Rechtschreiben
06 Rechtschreiben06 Rechtschreiben
06 Rechtschreibenjoness6
 
Zur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaZur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaGeorg Rehm
 
Nimecka mova-9-klas-basaj-2017
Nimecka mova-9-klas-basaj-2017Nimecka mova-9-klas-basaj-2017
Nimecka mova-9-klas-basaj-2017kreidaros1
 
9 klas nimecka_mova_basaj_2017
9 klas nimecka_mova_basaj_20179 klas nimecka_mova_basaj_2017
9 klas nimecka_mova_basaj_2017Svinka Pepa
 
9 nm b_2017
9 nm b_20179 nm b_2017
9 nm b_20174book9kl
 
05 Sprachbetrachtung
05 Sprachbetrachtung 05 Sprachbetrachtung
05 Sprachbetrachtung joness6
 

Similaire à Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken (17)

Závěrečný úkol
Závěrečný úkolZávěrečný úkol
Závěrečný úkol
 
1
11
1
 
Nimetska mova-8-klas-basai-2021
Nimetska mova-8-klas-basai-2021Nimetska mova-8-klas-basai-2021
Nimetska mova-8-klas-basai-2021
 
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчанняПідручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання
Підручник Німецька мова 8 клас Н.П. Басай (2021 рік) 4-й рік навчання
 
1
11
1
 
Historische und etymologische Wörterbücher
Historische und etymologische WörterbücherHistorische und etymologische Wörterbücher
Historische und etymologische Wörterbücher
 
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...
Lexikografie und Wörterbuchbenutzungskompetenz: Eine Einführung für Germanist...
 
05 Aspekte des Schriftspracherwerbs, Stufenmodelle
05 Aspekte des Schriftspracherwerbs, Stufenmodelle05 Aspekte des Schriftspracherwerbs, Stufenmodelle
05 Aspekte des Schriftspracherwerbs, Stufenmodelle
 
Christoph Fasel: Wie man schlank und zupackend schreibt
Christoph Fasel: Wie man schlank und zupackend schreibtChristoph Fasel: Wie man schlank und zupackend schreibt
Christoph Fasel: Wie man schlank und zupackend schreibt
 
06 Rechtschreiben
06 Rechtschreiben06 Rechtschreiben
06 Rechtschreiben
 
Zur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaZur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer Korpora
 
9
99
9
 
Nimecka mova-9-klas-basaj-2017
Nimecka mova-9-klas-basaj-2017Nimecka mova-9-klas-basaj-2017
Nimecka mova-9-klas-basaj-2017
 
9 klas nimecka_mova_basaj_2017
9 klas nimecka_mova_basaj_20179 klas nimecka_mova_basaj_2017
9 klas nimecka_mova_basaj_2017
 
9 nm b_2017
9 nm b_20179 nm b_2017
9 nm b_2017
 
1
11
1
 
05 Sprachbetrachtung
05 Sprachbetrachtung 05 Sprachbetrachtung
05 Sprachbetrachtung
 

Plus de simondschweitzer

Schweitzer gravitation leipzig_2012_
Schweitzer gravitation leipzig_2012_Schweitzer gravitation leipzig_2012_
Schweitzer gravitation leipzig_2012_simondschweitzer
 
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLA
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLAHieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLA
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLAsimondschweitzer
 
Suffix der ersten Person in den CT
Suffix der ersten Person in den CTSuffix der ersten Person in den CT
Suffix der ersten Person in den CTsimondschweitzer
 
Dating Egyptian Literary Texts: Lexical Approaches
Dating Egyptian Literary Texts: Lexical ApproachesDating Egyptian Literary Texts: Lexical Approaches
Dating Egyptian Literary Texts: Lexical Approachessimondschweitzer
 

Plus de simondschweitzer (8)

Schweitzer gravitation leipzig_2012_
Schweitzer gravitation leipzig_2012_Schweitzer gravitation leipzig_2012_
Schweitzer gravitation leipzig_2012_
 
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLA
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLAHieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLA
Hieroglyphenschreibmaschine: Texterfassung und Textrecherche im TLA
 
Handout_FU_2010
Handout_FU_2010Handout_FU_2010
Handout_FU_2010
 
TLA_ fuer_Drittsemester
TLA_ fuer_DrittsemesterTLA_ fuer_Drittsemester
TLA_ fuer_Drittsemester
 
Lösungen zum SÄK-Labor
Lösungen zum SÄK-LaborLösungen zum SÄK-Labor
Lösungen zum SÄK-Labor
 
Tuebingen 2010
Tuebingen 2010Tuebingen 2010
Tuebingen 2010
 
Suffix der ersten Person in den CT
Suffix der ersten Person in den CTSuffix der ersten Person in den CT
Suffix der ersten Person in den CT
 
Dating Egyptian Literary Texts: Lexical Approaches
Dating Egyptian Literary Texts: Lexical ApproachesDating Egyptian Literary Texts: Lexical Approaches
Dating Egyptian Literary Texts: Lexical Approaches
 

Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken

  • 1. Möglichkeiten (und Probleme) der Darstellung von Wortfeldern in lexikalischen Datenbanken Simon D. Schweitzer BBAW, Altägyptisches Wörterbuch
  • 2. Wortfelder in der ägyptologischen Praxis: Status quo (I) • Möglichkeit A: Einzelstudien zu bestimmten Wortfeldern; die Ergebnisse liegen in Artikeln oder Monographien vor; z.B.: – Bickel, S.: Furcht und Schrecken in den Sargtexten. In: SAK 15, 1988, S. 17-25. – Franke, D.: Altägyptische Verwandtschaftsbezeichnungen im Mittleren Reich, 1983. • Diese Einzelstudien sind i.d.R. in sich abgeschlossen. Es entwickelt sich keine Diskussion. Ausnahme: die Farbbezeichnungen: Beiträge von Schenkel, Baines und Warburton
  • 3. Wortfelder in der ägyptologischen Praxis: Status quo (II) • Möglichkeit B: Sortierung des gesamten Wortschatzes nach Wortfeldern: – 6. Band des Wörterbuches: Deutsch- aegyptisches Wörterverzeichnis in alphabetischer und sachlicher Ordnung […] – Hannig, R. & P. Vomberg: Wortschatz der Pharaonen in Sachgruppen, 1998.
  • 4. Lexikalische Datenbanken in der Ägyptologie • sie befassen sich mit dem gesamten Wortschatz • ein Datensatz bietet Informationen zu einem Wort • Beispiele:
  • 9. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen von allgemeinen Wortfeldern zu speziellen
  • 10. Browsen • Grundannahme: Wortfelder sind hierarchisch strukturiert • Ansichten beliebiger Granularität können leicht erzeugt werden
  • 11. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Die Suche in Wortfeldern nach zeitlichen, lokalen oder genrespezifischen Kriterien kann implementiert werden: Wie unterscheidet sich das Wortfeld [SEHEN] aus dem memphitischen Raum von dem aus dem thebanischen? Wie entwickelt sich ein Wortfeld vom Alt- zum Neuägyptischen? Haben literarische Texte andere Vertreter eines Wortfeldes als z.B. Briefe?
  • 12. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Einschränkungen in der Suche 3. Suchmöglichkeit Wort X + Wortfeld
  • 13. Bisher im TLA: Suche nach Wort X + Wort Y
  • 14. oder: Suche nach Wort X + Wortart
  • 15. Wunsch: • Wort X + Wortfeld Y – Beispiel: Unterscheidet sich die Lexik des Feindevernichtens, ob man nun Asiaten oder Nubier vernichtet? • Wortart X + Wortfeld Y – Beispiel: Werden Bewegungsverben immer mit m statt Hr in der jw=f-Hr-sDm-Konstruktion verwendet?
  • 16. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Einschränkungen in der Suche 3. Suchmöglichkeit Wort X + Wortfeld 4. Diachrone Wortfeldentwicklung
  • 17. Diachrone Wortfeldentwicklung • viele griechische Lehnwörter im Koptischen • Fragestellung: Waren die Wortfelder in der Zeit direkt vor dem Koptischen so unausgeglichen, dass die griechischen Wörter so leicht in der hohen Zahl in das Koptische eindrangen? Oder verdrängten die griechischen Wörter ägyptische Äquivalente in intakten Feldern?
  • 18. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Einschränkungen in der Suche 3. Suchmöglichkeit Wort X + Wortfeld 4. Diachrone Wortfeldentwicklung 5. Sprachvergleich
  • 19. Sprachvergleich • Welche Wortfelder haben im Ägyptischen mehr (weniger) Vertreter als in anderen Sprachen? • Testen der Sapir-Whorf-Hypothese (unterschiedliches Abbilden der außersprachlichen Realität) • Vorteil der Datenbanken: schnelleres und effizienteres Suchen
  • 20. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Einschränkungen in der Suche 3. Suchmöglichkeit Wort X + Wortfeld 4. Diachrone Wortfeldentwicklung 5. Sprachvergleich 6. Lexikostatistik
  • 21. Lexikostatistik in der Ägyptologie • Versuch, den lexikalischen Reichtum eines Textes quantitativ zu erfassen • eingeführt von Fritz Hintze, 1975 • das Maß S*: je kleiner S* ist, desto reicher ist das Vokabular • bisherige Untersuchungen zu einzelnen (zumeist literarischen) Texten • Gesamtvokabular und Teilvokabulare (nach Wortart) werden betrachtet
  • 23. Mögliche Fragestellungen • Ist ein lexikalisch reicher Text auch in allen verwendeten Wortfeldern lexikalisch reich? • Wie reich sind die Wortfelder, zu denen die Schlüsselwörter eines Textes gehören? Unterscheidet sich deren Reichtum von dem anderer Wortfelder? • Ist der lexikalische Reichtum eines Textes gleichverteilt?
  • 24. Wortfelder in Datenbanken: Marktlücken in der Ägyptologie 1. Browsen 2. Einschränkungen in der Suche 3. Suchmöglichkeit Wort X + Wortfeld 4. Diachrone Wortfeldentwicklung 5. Sprachvergleich 6. Lexikostatistik 7. Lautsymbolik
  • 25. Lautsymbolik (I) • eingeführt von Sabine Albers, 2008 • These: die lautliche Struktur eines Wortes ist nicht willkürlich, sondern hängt von der Semantik ab • Freude werde vorrangig hart artikuliert (Plosiva: p, t, k, q) • Trauer werde vorrangig weich artikuliert (Nasale: m, n) • These wurde anhand von bestimmten Textsorten geprüft
  • 26. Lautsymbolik (II) • eingeführt von Sabine Albers, 2008 • These: die lautliche Struktur eines Wortes ist nicht willkürlich, sondern hängt von der Semantik ab • Freude werde vorrangig hart artikuliert (Plosiva: p, t, k, q) • Trauer werde vorrangig weich artikuliert (Nasale: m, n) • These wurde anhand von bestimmten Textsorten geprüft • Nachweis von Schneider (LingAeg 16, 2008), dass das verwendete Material in hohem Maße fehlerdurchsetzt ist: „Bei einer Gesamtzahl von 18627 Konsonanten (S. 67) bedeutet das aber, dass die komplette Argumentationsbasis der Arbeit entfällt.“
  • 27. Lautsymbolik (III) • Die These der Lautsymbolik sollte nicht anhand von Textsorten, sondern anhand des Vokabulars der entsprechenden Wortfelder geprüft werden • Umfangreiche quantitative Analysen können nur in lexikalischen Datenbanken durchgeführt werden
  • 28. Wie gelangt die Information „Wortfeld“ in die Datenbank? • 2 Ansätze: 1. Corpusbasiertes Annotieren („Taggen“)
  • 29. Corpusbasiertes Annotieren • Bei der Erstellung eines Corpus werden jedem Element verschiedene Informationen beigefügt. – Um welches Wort handelt es sich? Lexikalische Annotation – Um welche (grammatikalische) Form handelt es sich? Grammatikalische Annotation – Zu welchem Bedeutungsfeld ist das Wort zu zählen? Semantische Annotation
  • 30. Semantisches Tagging • UCREL Semantic Analysis System (Projekt der University of Lancaster) • http://ucrel.lancs.ac.uk/usas/ • Bisher angewendet für: Englisch, Finnisch und Russisch • Neben Lemmatisierung, Wortart, grammatikalischer Information wird auch semantisch getaggt. • Die semantischen Tags sind hierarchisch gegliedert:
  • 34. Vorteile • es gibt ein Modell, das auf den gesamten Wortschatz anwendbar ist • das Modell ist nicht auf eine Sprache beschränkt => sprachübergreifende Studien sind möglich • man kann einem Wort mehrere Tags zuweisen • eine semantische Einheit kann aus mehreren Wörtern bestehen • die Semantik hängt nicht am Lemma, sondern an einer bestimmten Textstelle
  • 35. Exkurs • Warum ist es problematisch, die semantische Information direkt an ein Lemma zu hängen? • Beispiel: pr gehört zum Wortfeld [GEBÄUDE], aber was ist mit folgendem Satz:
  • 37. Vorteile & Nachteile • es gibt ein Modell, das auf den gesamten Wortschatz anwendbar ist • das Modell ist nicht auf eine Sprache beschränkt => sprachübergreifende Studien sind möglich • man kann einem Wort mehrere Tags zuweisen • eine semantische Einheit kann aus mehreren Wörtern bestehen • die Semantik hängt nicht am Lemma, sondern an einer bestimmten Textstelle • ein sehr hoher Arbeitsaufwand: – wollte man nach diesem Modell das TLA semantisch taggen, müsste man alle Texte nachbearbeiten! • ob das verwendete Modell semantische Differenzierungen im Ägyptischen hinreichend genau abbilden kann, ist unklar
  • 38. Generelle Fragen • Gibt es überhaupt ein metasprachliches Modell für die Wortfeldstrukturen, das für alle Sprachen gilt? • Wie kann man die Wortfelder benennen? Bringt nicht die Verwendung des Englischen die Kategorisierung im Englischen in die untersuchte Sprache ein?
  • 39. Wie gelangt die Information „Wortfeld“ in die Datenbank? • 2 Ansätze: 1. Corpusbasiertes Annotieren 2. Lexikonbasiertes Annotieren
  • 40. Lexikonbasiertes Annotieren • Einem Lemma werden bestimmte Informationen hinzugefügt: – Wortart – Übersetzung – hieroglyphische Schreibungen – semantische Informationen (Wortfeld) – Beziehungen zu anderen Lemmata
  • 41. Beziehungen zu anderen Lemmata • Verweise – obsolete Ansetzungen werden auf andere Lemmata verwiesen • hierarchische Ordnung, z.B.: – im Wb nach (In-)Transitivität getrennte Einträge werden einem Oberlemma hierarchisch untergeordnet • Bestandteile – Verknüpfung von Kompositum und verwendeten Bestandteilen
  • 42. Beziehungen zu anderen Lemmata • weitere Möglichkeiten: – Synonyme, Antonyme, Hyperonyme …
  • 43. WordNet • Datenbank zum englischen Wortschatz • seit 1985 in Princeton • frei verfügbar • http://wordnet.princeton.edu/ http://wiki.english.ucsb.edu/index.php/File:Wordnet.jpg
  • 44. WordNet • verschiedene Implementierungen • mobiles Wörterbuch: http://www.mobisystems.com/images/Palm/wordnet_palm.jpg
  • 46. Beziehung zwischen Lemmata (I) http://adimen.si.ehu.es/web/files/WordNet2TCO/TCO2.3FirstEntity.png
  • 47. Beziehung zwischen Lemmata (II) http://dingo.sbs.arizona.edu/~sandiway/wnconnect/wnconnectex2.png
  • 48. Beziehung zwischen Lemmata (III) Kamps, Jaap: Visualizing WordNet Structure
  • 49. Vorteile • strukturelle Erschließung des Wortschatzes • Angabe der Relation zwischen Lemmata • mehrere Beziehungsangaben pro Wort möglich • im Vergleich zum textstellenbasierten Ansatz geringerer Arbeitsaufwand
  • 50. Vorteile & Nachteile • strukturelle Erschließung des Wortschatzes • Angabe der Relation zwischen Lemmata • mehrere Beziehungsangaben pro Wort möglich • im Vergleich zum textstellenbasierten Ansatz geringerer Arbeitsaufwand • Ob (synchron gedachte) Relationen auch für diachrone Zusammenhänge verwendet werden können, ist unklar. • Sprachübergreifende Studien sind kaum möglich. • Umgang mit Mehrworteinheiten • semantische Variationsbreite eines Lemma ist schlecht abbildbar
  • 51. Umgang mit semantischen Angaben in Datenbanken • Taggen des Textwortes bzw. des Lemma reicht nicht aus! • Die Wortfelder müssen auch untereinander strukturiert werden.
  • 53. Umgang mit semantischen Angaben in Datenbanken • Taggen des Textwortes bzw. des Lemma reicht nicht aus! • Die Wortfelder müssen auch untereinander strukturiert werden. • Nur wenn die Felder in Beziehung gesetzt werden, ist das gewünschte Browsen möglich!
  • 54. Taggen • Warum ist es wichtig, dass man einem Textwort bzw. einem Lemma mehrere semantische Tags zuweisen kann?
  • 55. Nahrungsmittel? Aber was ist mit Äpfeln, Kuchen, Zwiebeln, Schinken…?
  • 56. Aal • folgende Tags sind denkbar: – Fisch – Nahrungsmittel – feindliches Wesen – … – vielleicht auch: • literarisches Motiv • Metapher für …
  • 57. Wortfelder / semantische Tags • das Vokabular muss einheitlich sein (es darf nicht einmal [SEHEN] und einmal [SCHAUEN] heißen) • die semantischen Tags müssen verknüpft sein • diese Verknüpfungen müssen ebenfalls standardisiert sein • alle Tags sind auf alle Wörter anzuwenden – (wenn man beim Aal ein Tag „literarisches Motiv“ ansetzt, ist bei allen anderen Wörtern zu prüfen, ob sie auch mit diesem Tag annotiert werden können)
  • 58. Darstellung der Wortfeldmitglieder • konventionell: alphabetische Liste • Prototypensemantik: – Es gibt typische Vertreter eines Feldes und weniger typische: 3 ist typischer Vertreter für [UNGERADE ZAHLEN], 875467397 hingegen nicht. – Wie bildet man dies ab?