3. Selbständigkeitserklärung
Hiermit erkläre ich, dass ich die Magisterarbeit zum Thema
Von Dependenzstrukturen zu Konstituentenstrukturen:
Automatische Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
vollkommen selbständig verfasst und keine anderen als die angegebenen Quellen und
Hilfsmittel benutzt sowie Zitate kenntlich gemacht habe.
Heidelberg, den 05.08.2009
Unterschrift
iii
4. Danksagung
Ich danke Frau Prof. Dr. Anette Frank für ihre kompetente Betreuung und hilfreiche
Anregungen. Mein besonderer Dank gilt Aoife Cahill für den Korpus, den sie mir zur
Verfügung gestellt hat. Dank auch an Sascha Fendrich und Christian Simon, die mir
Rückmeldung über meine Arbeit gegeben haben. Herzlichen Dank an meine Frau Xenia
für ihr Dasein.
iv
7. Abbildungsverzeichnis
2.1 Konstituentenstruktur und Dependenzstruktur . . . . . . . . . . . . . . . 8
2.2 C- und F-Strukturen für den Satz The equity market was illiquid . . . . . 10
2.3 F-Struktur vs. Dependenzstruktur . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Lange Dependenz in F-Struktur und in Dependenzbaum . . . . . . . . . . 12
2.5 Abbildung von C-Struktur-Knoten auf F-Strukturen . . . . . . . . . . . . 13
3.1 Penn-Treebank-Baum und Dependenzbaum . . . . . . . . . . . . . . . . . 15
3.2 Regeln der X-Bar-Theorie (a) und Algorithmus 1: DS (b) und KS (c) (aus
Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Die von Algorithmus 1 erzeugte KS für DS in der Abbildung 3.1b (vgl.
Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Das Schema für Algorithmus 2: DS (a) und KS (b) (aus Xia et al., 2009) . 18
3.5 Die von Algorithmus 2 erzeugte KS für DS in der Abbildung 2.1b (vgl.
Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.6 Die von Algorithmus 3 erzeugte KS für DS in der Abbildung 3.1b (vgl.
Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7 Konvertierungsregeln (aus Xia et al., 2009) . . . . . . . . . . . . . . . . . 21
3.8 Input-DS und Teilbäume, die von Zeilen (3)-(4) des Algorithmus erzeugt
wurden (aus Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.9 Schrittweise Verknüpfen von Dependenten von join (aus Xia et al., 2009) 23
4.1 Abbildung von DS in KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1 Ein Beispielbaum aus der Penn Treebank . . . . . . . . . . . . . . . . . . 29
5.2 Partielle Bäume des Satzes The equity market was illiquid . . . . . . . . . 30
5.3 Referenzen (Links) im LFG-Korpus . . . . . . . . . . . . . . . . . . . . . . 31
6.1 Verknüpfungsoperation (formal) . . . . . . . . . . . . . . . . . . . . . . . 35
7.1 Hypothesenbaum und Goldstandard . . . . . . . . . . . . . . . . . . . . . 40
1
8. Abbildungsverzeichnis
7.2 Penn-Treebank-Baum für den Satz The demon seems to have gone . . . . 44
7.3 F-Struktur für den Satz The demon seems to have gone . . . . . . . . . . 56
7.4 F-Struktur für den Satz The demon seems to have gone nach der Verar-
beitung von Doppeleinträgen . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.5 Verteilte Dependenzstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.6 Falsche Ermittlung von Dominanz- und Präzedenzrelationen bei Konstruk-
tion einer KS aus Initial-Bäumen (Mit ’...’ ist korrekte Position markiert) . 58
7.7 Training auf den Trainingskorpora verschiedener Größe . . . . . . . . . . . 59
2
9. Tabellenverzeichnis
3.1 Ergebnisse der Evaluierung von drei Algorithmen auf Sektion 0 der Penn
Treebank (unlabeled) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Ergebnisse der Evaluierung von Algorithmus von Xia et al. (2009) (labeled
und unlabeled) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.1 Anzahl der Ableitungsbäume, die von einem Initial-Baum der Höhe n und
zwei Tochterbäumen abgeleitet werden können . . . . . . . . . . . . . . . 38
7.1 Ergebnisse der LA-Evaluierung für den Baum aus der Abbildung 7.1b . . 41
7.2 Anzahl der Sätze in Trainings- und Testkorpus hinsichtlich ihrer Länge . . 43
7.3 Ergebnisse der Ermittlung von Initial-Bäumen (durch grammatische Funk-
tionen parametrisiert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.4 Ergebnisse der Ermittlung von Initial-Bäumen (parametrisiert durch gram-
matische Funktionen, morphosyntaktische und lexikalische Information) . 49
7.5 Fehler bei der Ermittlung der Initial-Bäume . . . . . . . . . . . . . . . . . 50
7.6 Ergebnisse der Generierung von Ableitungsbäumen . . . . . . . . . . . . . 53
7.7 Ergebnisse des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8 Anzahl der Fälle, wann der zweitbeste Initial-Baum korrekt ist . . . . . . 55
7.9 Ergebnisse des Systems, wobei 2 beste Initial-Bäume in weitere Verarbei-
tung übernommen werden . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.10 Training auf den Trainingskorpora verschiedener Größe . . . . . . . . . . . 55
3
10. 1 Einleitung
Grammatiktheorien verwenden Formalismen, um die syntaktischen Satzstrukturen zu re-
präsentieren. Die Formalismen können grob klassifiziert werden hinsichtlich dessen, welche
syntaktische Relation als Grundrelation zwischen den Satzelementen angenommen wird.
Man unterscheidet zwei grundlegende Relationen: eine Relation der Konstituenz, die auf
einer Teil-Ganzes-Beziehung beruht, und eine Relation der Dependenz, die Abhängigkeits-
oder Kontrollbeziehungen zwischen Einheiten im Satz als Grundlage hat. Strukturen, die
diese Relationen darstellen, bezeichnet man entsprechend als Konstituentenstrukturen
(KS) und Dependenzstrukturen (DS). Da diese Strukturen in der Regel baumartig sind,
werden sie auch Konstituentenbäume (oder Phrasenstrukturbäume) und Dependenzbäume
genannt. Dementsprechend werden Grammatiken, die auf diesen Strukturen basieren, als
Phrasenstruktur- bzw. Dependenzgrammatiken bezeichnet.
In der Literatur gab es viele Diskussionen über Unterschiede und Gemeinsamkeiten der
beiden Strukturen (Baumgärtner, 1970; Engel, 1993; Covington, 1994; Jung, 1995; Kaplan
und Bresnan, 1995). Es wurde darauf hingewiesen, dass die Strukturen sich ineinander
konvertieren lassen. Eine Reihe von Ansätzen von automatischer Konvertierung entstand
im Rahmen von Entwicklungen der Baumbanken.1 Die Baumbanken werden hinsichtlich
ihres Annotationsschemas in zwei Arten unterteilt: Baumbanken mit Konstituentenbäu-
men wie zum Beispiel die Penn Treebank fürs Englische (Marcus et al., 1993, 1994), sowie
Baumbanken mit Dependenzstrukturen wie The Prague Dependency Treebank (Hajic,
1998).
Nach Xia et al. (2009) sollen Baumbanken der nächsten Generation ”multi-representational”
sein. Das heißt, die Baumbanken sollen sowohl über Konstituenten- als auch über Depen-
denzrepräsentationen verfügen. Das parallele Verwenden von beiden Strukturen wurde
beispielsweise in Statistical Machine Translation (Hearne et al., 2008) eingesetzt, wobei
Alignment von Konstituenz- und Dependenzstrukturen kombiniert wurde.
1
Unter einer Baumbank wird eine Sammlung von Einheiten - meist Sätzen - verstanden, deren syntakti-
sche Satzstruktur annotiert ist. Der Begriff Baumbank verweist zudem darauf, dass die Satzstruktur
meist in Form einer Baumstruktur kodiert wird.
4
11. 1 Einleitung
Die Erstellung einer Baumbank, besonders einer Baumbank mit parallelen Strukturen, ist
aber eine aufwändige Aufgabe. In der Praxis ist es leichter, ein automatisches Konvertie-
rungsverfahren zu realisieren. Bis jetzt wurde schon eine Menge von Ansätzen entwickelt,
die die Konvertierung von KSen in DSen mit einer hohen Akkuratheit durchführen
(Collins, 1997; Zabokrtsky und Kucerova, 2002; Gelbukh et al., 2005; Johansson und
Nugues, 2007). Es gibt aber nur einige Ansätze, die der umgekehrten Konvertierung
- DS in KS - gewidmet sind (Xia und Palmer, 2001; Xia et al., 2009).2 Sie basieren
auf der Entwicklung von Konvertierungsregeln zwischen den Struktursegmenten. Die
DS-Segmente werden in KS-Segmente konvertiert und aus den KS-Segmenten wird eine
gesamte KS generiert.
Da im Laufe der Konvertierung der DS-Segmente in KS-Segemente oft mehrere Konvertie-
rungsregeln angewendet werden können, entsteht somit das Problem der Regelambiguität.
Die Auswahl der passenden Regel sowie auch die Generierung der gesamten KS aus KS-
Segmenten werden durch die manuell entwickelten Heuristiken gesteuert. Die Entwicklung
von heuristischen Regeln setzt eine tiefe gründliche Analyse von Konstituentenstrukturen
des gegebenen Annotationsschemas voraus.
Wegen der Abhängigkeit vom Annotationsschema läßt sich das Konvertierungsverfahren
direkt auf die anderen Annotationsschemata nicht übertragen. Diese Beschränkung kann
mit Hilfe von statistischen Methoden überwunden werden. Auf welche Art und Weise?
1. Die notwendigen Konvertierungsregeln können anhand einer Datenmenge bzw. eines
Korpus gelernt werden.
2. Die Ambiguität der Regeln kann durch das Anwenden von probabilistischen Model-
len gelöst werden.
3. Es kann ein allgemeiner übergenerierender, annotationsschema-neutraler Generie-
rungsalgorithmus entwickelt werden, der aus KS-Segmenten eine Menge von KSen
baut. Die Auswahl der optimalen KS wird einem probabilistisch-basierten Ranker
überlassen.
2
Es gibt eine Reihe von baumbasierten Sprachgenerierungsansätzen, die als Eingabe Dependenzsturk-
turen annehmen und Strings/Sätze generieren (u.a. Bangalore und Rambow, 2000; Cahill und van
Genabith, 2006). Die Konstituentenstrukturen werden als Nebenprodukt ermittelt. Das Ziel von diesen
Ansätzen ist, korrekte Sätze, nicht aber korrekte Konstituentenbäume zu produzieren. Im Gegensatz
zu Sätzen, die als eindimensionale Strukturen vorgestellt werden können, sind Konstituentenbäume
zweidimensional. Die Generierung von korrekten Konstituentenbäumen erfordert die Spezifizierung
nicht nur einer richtigen linearen Ordnung, sondern auch einer hierarchischen. Außerdem können
Konstituentenbäume spezifische Elemente und Informationen enthalten (z.B. Nullelemente), die für
die Baumrepräsentation relevant sind und sollen somit bei der Generierung ermittelt werden.
5
12. 1 Einleitung
Das Ziel dieser Arbeit ist, ein Generierungsverfahren KS-aus-DS zu entwickeln, das auf
statistischen Methoden basiert. Die obengenannten Punkte werden Teilaufgaben der
Arbeit sein.
Die Anwendung von statistischen Methoden setzt aber eine Datenmenge bzw. einen
Korpus voraus. Anhand des Korpus müssen die Konvertierungsregeln gelernt (Punkt 1),
sowie die probabilistischen Modelle für Regeldisambiguierung (Punkt 2) und Auswahl der
besten KS (Punkt 3) trainiert werden. Außerdem werden anhand des Korpus die Ergebnis-
se evaluiert. Da es sich um die Konvertierung von zwei verschiedenen Strukturen handelt,
braucht man einen Korpus, der beide Strukturen sowie auch die Korrespondenzbeziehun-
gen zwischen den Strukturen enthält. Der Korpus, der diese Anforderungen erfüllt, ist ein
LFG-Korpus (Cahill et al., 2002), der aus Penn-Treebank-Bäumen und LFG-F-Strukturen
besteht. Penn-Treebank-Bäume gelten als KSen und LFG-F-Strukturen gelten als DSen.
Dieser Korpus wurde als Training- und Evaluierungskorpus für diese Arbeit verwendet.
Die Arbeit ist in diese weiteren Kapitel gegliedert:
Der theoretische Hintergrund wird in Kapitel 2 ausgeführt. Es werden Grundlagen von
Konstituenz und Dependenz erläutert (2.1). Die Darstellung der beiden Relationen im
Rahmen der LFG-Theorie wird in 2.2 diskutiert.
In Kapitel 3 werden die bisherigen Ansätze für Konvertierung DS-in-KS referiert (3.1)
und es wird auf die Beschränkungen der angewendeten Algorithmen hingewiesen (3.2).
Das 4. Kapitel macht eine Einführung in die statistische Sprachverarbeitung (4.1), und
es wird ein allgemeines statistisches Modell definiert, das als Ausgangspunkt für die
Entwicklung von Generierungsverfahren KS-aus-DS dienen wird (4.2).
In Kapitel 5 wird der LFG-Korpus vorgestellt. Es werden seine Details und Besonderheiten
beschrieben.
Das 6. Kapitel stellt den Kern dieser Arbeit dar. Es wird das gesamte Verfahren im Detail
erläutert.
Eine detailierte Beschreibung von Experimenten und ihren Ergebnissen ist der Gegenstand
des 7. Kapitels. Zuerst wird auf die Problematik der Evaluierung von KSen eingegangen
(7.1.1). Es werden Evaluierungsmetriken vorgestellt (7.1.2 und 7.1.3), mit deren Hilfe
die Ergebnisse ausgewertet werden. Eine genaue Spezifikation der statistischen Modelle
sowie ihre Evaluierungsergebnisse werden in 7.3 präsentiert.
Das Kapitel 8 fasst die gewonnenen Erkenntnisse zusammen und gibt einen Ausblick für
weiterführende Arbeiten zur Generierung von KS aus DS.
6
13. 2 Theoretischer Hintergrund
2.1 Konstituenz und Dependenz
In diesem Abschnitt werden die zwei syntaktischen Relationen repräsentiert, die es
zwischen grammatischen Einheiten überhaupt gibt: Konstituenz und Dependenz.
Die Hauptannahme der Konstituenz besteht darin, dass die Struktur von Sätzen nicht bloß
linear, sondern auch hierarchisch ist. Ein Satz gliedert sich auf in verschiedene Teile, die
sich wiederum in verschiedene Teile aufgliedern, usw. Diese Teile heissen Konstituenten
oder Phrasen. Die hierarchische Organisation von Konstituenten - Sequenzen von Wörtern
- ist die erste grundlegende Eigenschaft von KSen. Die zweite grundlegende Eigenschaft
der Konstituenz ist Linearisierung (von Wörtern und Konstituenten).
Die hierarchische Organisation von Konstituenten lässt sich als Baum darstellen. Ein
Strukturbaum besteht zunächst einmal aus einer Menge von Knoten und Kanten. Die
Abbildung 2.1a zeigt einen Konstituentenbaum aus der Penn Treebank für den Satz The
equity market was illiquid. Die Wörter sind Terminalknoten. Die inneren Knoten sind mit
syntaktischen Kategorien (z.B. S steht für den Satz, NP für Nominalphrase) etikettiert.
Die Repräsentation von Konstituenten durch Bäume lässt deutlich erkennen, dass die
Relation der Konstituenten genaugenommen eine komplexe Relation ist, die sich aus zwei
elementaren Relationen zusammensetzt:
1. der Dominanzrelation - in jedem lokalen Baum (der Höhe 1) dominiert die Mutter
ihre Töchter direkt oder unmittelbar (und die von ihren Töchtern dominierten
Knoten mittelbar)
2. der Präzedenzrelation - jede Konstituente legt fest, in welcher Reihenfolge die sie
konstituierenden Konstituenten stehen.
Durch Angabe aller direkten Dominanz- und Präzedenzbeziehungen lassen sich Konstitu-
entenbäume vollständig spezifizieren.
7
14. 2 Theoretischer Hintergrund
Abb. 2.1: Konstituentenstruktur und Dependenzstruktur
Eine weitere Notationsform für die Darstellung der Konstituenz sind verschachtelte
Klammern. Die Konstituentenstruktur in der Abbildung 2.1a kann durch einen Klam-
merausdruck folgendermaßen repräsentiert werden:
(S (NP-SBJ (DT the) (NN equity) (NN market)) (VP (VBD was) (ADJP-PRD (JJ illiquid))))
Dabei repräsentiert jedes Paar einer sich öffnender und einer sich schließender Klammer
einen Knoten. Die Einbettung der Klammer spiegelt die Einbettung von Konstituenten
wieder. Die syntaktischen Kategorien werden an der linken Klammer eines jeden Paares
angezeigt. Diese Notationsweise wird in dieser Arbeit im folgenden auch verwendet.
Als zweite syntaktische Grundrelation wird Dependenz angeführt. Dependenz ist eine
zweistellige Relation zwischen zwei sprachlichen Elementen, genauer gesagt, zwei Wörtern,
wobei eines das regierende und das andere das regierte Element ist. Das regierende Wort
wird auch oft Kopf oder Regens genannt, das regierte Wort - Dependens (vgl. Jung,
1995:20). DS eines Satzes ist durch die Menge der zwischen seinen Wörtern bestehenden
Dependenzrelationen bestimmt und kann durch einen Dependenzbaum repräsentiert
werden, in dem alle Knoten mit Wörtern etikettiert sind. Die Dependenzrelationen
werden durch Knoten und Kanten repräsentiert. Die regierenden Knoten stehen oberhalb
der regierten Knoten. In der Abbildung 2.1b wird eine DS für den Satz The equity market
was illiquid dargestellt. Die DS besteht aus vier Dependenzrelationen.
Dependenz repräsentiert die innere funktionale Struktur des Satzes. Die Dependenzrela-
tionen werden nach ihrer syntaktischen Funktion unterteilt: Subjekt, Objekt, Adjunkt
usw. In der Abbildung 2.1b sind Kanten mit grammatischen Funktionen gelabelt.
Die beiden Konzepte – Konstituenz und Dependenz – werden in der Literatur oft als
8
15. 2 Theoretischer Hintergrund
komplementär betrachtet:
”Mit Hilfe von Dependenzgrammatik kann zwar die innere Organisation
eines Satzes explizit dargestellt werden, aber eine adäquate Erklärung der
linearen Abfolge ist nicht möglich. Die Phrasenstruktur ihrerseits liefert
zwar die lineare Abfolge, kann aber die anderen syntaktischen Relationen
nicht hinreichend explizieren.” (Jung, 1995: 26)
”Das Prinzip der Dependenz liegt vielmehr der Theorie der ‘Funktionalität’,
in älterer Redeweise: der ‘Beziehungsbedeutungen’ des Satzes zugrunde,
womit nun klar wird, dass dies Prinzip nicht bloss von Position und Morpho-
logie absehen kann, sondern nicht einmal die lexematischen Verhältnisse
des Satzes im ganzen zu umfassen braucht. Eine Dependenzgrammatik
kann diese verschiedenen grammatischen Eigenschaften überhaupt nicht
adäquat erklären. Umgekehrt vermag das Prinzip der Konstituenz solche
funktionalen Beziehungen nicht zu erklären, weder in einzelnen Zügen noch
gar in ihrer Gesamtheit. Dies ist auch unabhängig davon, wie abstrakt eine
Konstituentenstruktur angelegt ist. Damit lässt sich [...] deutlich machen,
dass sich die beiden Prinzipien komplementär verhalten.” (Baumgärtner,
1970:66).
Die Idee, dass die beiden Strukturen komplementär sind und dass zwischen beiden
Strukturen Korrespondenzbeziehungen bestehen, wurde in der Lexikalisch-Funktionalen
Grammatik durch Repräsentation von zwei parallelen grammatischen Ebenen realisiert.
2.2 Lexikalisch-Funktionale Grammatik (LFG)
Lexikalisch-Funktionale Grammatik (Kaplan und Bresnan (1982, 1995)) ist eine Gram-
matiktheorie, in der beide grundlegenden Strukturaspekte, nämlich Konstituenz und
Dependenz (bzw. Funktion), durch zwei parallele Repräsentationen dargestellt werden:
C-Strukturen und F-Strukturen.
C-Strukturen (constituent structure) sind Konstituentenbäume, die hierarchische Organi-
sation von Konstituenten, Abfolgebeziehungen und kategoriale Bestimmungen repräsen-
tieren.
F-Strukturen (functional structure) sind funktionale Strukturen, die durch funktionale
Beziehungen gekennzeichnet sind. Funktionale Beziehungen werden durch grammatische
9
16. 2 Theoretischer Hintergrund
bzw. funktionale Rollen (Subjekt, Objekt, Adjunkt etc.) benannt. In der Abbildung (2.2)
werden die C- und F-Strukturen für den Satz The equity market was illiquid repräsentiert.
Abb. 2.2: C- und F-Strukturen für den Satz The equity market was illiquid
Formal werden F-Strukturen als Attribut-Wert-Matrix dargestellt und enthalten Infor-
mation bspw. über Prädikat-Argument-Struktur und morphosyntaktische Kategorien
(Tempus, Agreement etc.). Zum Beispiel die F-Struktur f1 (Abbildung 2.2b) besteht aus
den Attribut-Wert-Paaren: [PRED ’be’], [TENSE past], [SUBJ f2] und [XCOMP f3].
Wenn man auf die morphosyntaktische Information verzichtet, können F-Strukturen auf
Dependenzstrukturen abgebildet werden. Dabei werden die F-Strukturen zu Knoten und
funktionale Beziehungen zu Kanten. In der Abbildung 2.3 werden die F-Struktur und die
aus der F-Struktur ”rekonstruierte” Dependenzstruktur dargestellt.
Es ist auch zu betonen, dass im Prinzip jeder Kopf ein oder mehrere Wörter regieren
kann. Jedes Dependens kann hingegen nur einen Kopf haben (vgl. Jung, 1995:21). In LFG
werden aber Multi-Dominanzrelationen akzeptiert, um bestimmte Konstruktionen zu
behandeln, wie bspw. Konstruktionen mit Raising-Verben (seem, happen etc). Im Fall der
Multi-Dominanz werden Dependenzen durch Doppeleintrag (reentrances) repräsentiert
(vgl. Kaplan und Bresnan, 1995:73-74). In der Abbildung 2.4a wird F-Struktur für den
Satz The demon seems to have gone repräsentiert. Die F-Struktur für the demon erscheint
drei mal in der Struktur (als Subjekt ). Die Multi-Dominanz kann im Dependenzbaum
durch Einführen des Nullelements repräsentiert werden (Abbildung 2.4b), wobei das
Nullelement mit dem entsprechenden Wort koindiziert wird (vgl. Xia et al., 2009:163).
C- und F-Strukturen stehen in einer Korrespondenzbeziehung zueinander. Die Korrespon-
denzbeziehung wird durch eine Funktion φ etabliert, die jeden C-Struktur-Knoten auf
eine (Teil-)F-Struktur abbildet. φ angewendet auf jeden Knoten der C-Struktur ergibt die
10
17. 2 Theoretischer Hintergrund
Abb. 2.3: F-Struktur vs. Dependenzstruktur
Zuordnung von C-Struktur zu F-Struktur. Die Korrespondenzbezieungen (die Funktion
φ) zwischen diesen beiden Strukturen sind in der Abbildung 2.5 durch punktierte Linien
dargestellt.
Wie man sieht, ist diese Funktion nicht unbedingt eins-zu-eins. Sie ordnet auch mehrere
Knoten derselben F-Struktur zu (vgl. Kaplan, 1995:16-17). Die explizite Instruktion, aus
der sich diese Zuordnung ergibt, stellt die funktionale Annotation (functional annotation)
dar. Das sind Gleichungen, mit denen die C-Struktur-Knoten annotiert sind (Abbildung
2.5). Zum Beispiel, die Annotation (↑ SUBJ= ↓) bedeutet, dass die zum Knoten NP-SBJ
zugehörige F-Struktur in der F-Struktur seiner Mutter dem Attribut SUBJ als Wert
zugeordnet wird. (↑ = ↓) bedeutet dagegen, dass die F-Struktur der Tochter und die
der Mutter dieselbe sind, d.h. dass die F-Struktur des ganzen Satzes die F-Struktur der
Verbalphrase und des Verbes ist.
Anhand der funktionalen Annotation werden F-Strukturen aufgebaut. Bei der Konstruk-
tion der F-Struktur wird jedem Knoten in der C-Struktur eine eigene F-Struktur durch
die Funktion φ zugewiesen. Die einzelnen, den jeweiligen C-Struktur-Knoten entsprechen-
den F-Strukturen bilden ohne inneren Zusammenhang vollkommen separate Objekte.
Die Integration der einzelnen F-Strukturen geschieht entweder durch Unifikation oder
Einbettung:
1. Unifikation: Falls ein Knoten im Baum die Gleichung (↑ = ↓) hat, wird seine korre-
spondierende F-Struktur mit der F-Struktur des dominierenden Knoten unifiziert.
Der Effekt der Unifikation besteht darin, dass zwei verschiedene C-Struktur-Knoten
11
18. 2 Theoretischer Hintergrund
Abb. 2.4: Lange Dependenz in F-Struktur und in Dependenzbaum
auf eine F-Struktur abgebildet werden. In diesem Sinne ist die Abbildung von
C-Struktur auf F-Struktur viele-zu-eins.
2. Einbettung: Eine Anweisung für die Einbettung ist eine Gleichung der Art (↑
<Attribute> = ↓). Dabei wird die Dominanzrelation ausgenutzt, indem die F-
Struktur des dominierten Knotens, die durch ↓ bezeichnet wird, in einem Attribut-
Wert-Paar, welches selbst eine F-Struktur bildet, als Wert eingeführt wird. Somit
wird eine F-Struktur in die andere eingebettet.
Funktionale Beschreibungen der Terminalsymbole ergänzen bestehende F-Strukturen
durch die Attribut-Wert-Paare, die lexikalische (PRED) und morphosyntaktische Infor-
mation (TENSE, NUM, PERS, u.a.) ausdrücken.
Die Konstruktion von F-Struktur anhand der C-Struktur wird durch funktionale Annota-
tion ermöglicht. Auch die Algorithmen, die DSen in KSen konvertieren (bspw. Magerman
(1995); Collins (1997); Xia und Palmer (2001)), setzen eine bestimmte Annotation von
Konstituenten voraus. Da es sich in dieser Arbeit um Generierung von KSen aus DSen
handelt, ergibt sich die Frage, welche Hilfsinformation DSen aufweisen sollen, um ihre
Konvertierung in KSen zu ermöglichen. Im nächsten Kapitel werden Ansätze vorgestellt,
die DSen in KSen konvertieren. Dabei setzen sie die Linearisierung und POS-Annotation
der Wörter in DSen voraus.
12
20. 3 Bisherige Ansätze
3.1 Xia und Palmer (2001)
Xia und Palmer (2001) entwickelten einen Algorithmus, der DSen in KSen konvertiert.
Input-DSen weisen Linearisierung und POS-Tags auf (Abbildung 3.1b).1 Die Evaluierung
ihres Konvertierungsalgorithmus haben sie anhand der vorhandenen Baumbank (nämlich
Penn Treebank) durchgeführt.
Nach Xia und Palmer (2001) soll jeder Transformationsalgorithmus DS-in-KS neben dem
Wiederherstellen von syntaktischen Kategorien (z.B. NP, VP, S) noch die drei folgenden
Fragen beantworten können:2
• Projektion für jede syntaktische Kategorie: welche Projektion kann jede syntaktische
Kategorie haben?
• Projektionsebene für Dependentien: Wenn eine Kategorie Y von einer Kategorie
X in der DS abhängig ist, in wie weit soll Y projeziert werden, bevor Y an die
Projektion von X angehängt werden wird?
• Verknüpfungsstelle: Wenn eine Kategorie Y von einer Kategorie X in der DS
abhängig ist, an welche Stelle in der Projektion von X soll die Projektion von Y
angeknüpft werden?
Xia und Palmer (2001) haben ihr Algorithmus mit zwei anderen Algorithmen vergleichen,
die im folgenden auch vorgestellt werden.
Algorithmus 1
Dieser Algorithmus basiert auf der X-Bar-Theorie. Xia und Palmer haben ihn von
Covington (Covington, 1994) übernommen. In der X-Bar-Theorie projeziert eine Kategorie
X zu X’, die dann zu XP projeziert wird. Es gibt drei Arten von Regeln (Abbildung 3.2a).
1
Die Dependenzstruktur in der Abbbildung (3.1b) implziert die lineare Ordnung der Wörter. Die schräge
Kante the-board weist bspw. darauf hin, dass the vor board im Satz steht. Das ist aber eine optionale
Eigenschaft der Dependenzrepräsentation und muss nicht immer in DS vorhanden sein.
2
aus (Xia und Palmer, 2001) ins Deutsche übertragen
14
21. 3 Bisherige Ansätze
Abb. 3.1: Penn-Treebank-Baum und Dependenzbaum
Der Algorithmus verwendet folgende heuristische Regeln:3
• Jede Kategorie X hat zwei Ebenenen der Projektion: X’ und XP.
• Jedes Dependens X projeziert zu X’, dann zu XP, und XP wird an die Projektion
des Kopfes angehängt.
• Dependentien werden in drei Typen unterteilt: Spezifikator, Modifikator und
Argument. Jeder Typ wird an eine bestimmte Stelle angehängt, wie es in der
Abbildung (3.2c) gezeigt ist.
Der Algorithmus transformiert die DS in der Abbildung 3.1b in die KS in (3.3).
Algorithmus 2
Dieser Algorithmus wurde in (Collins et al., 1999) erläutert. Er wurde im Rahmen der
Transformation von Czech Dependenz Baumbank zu einer KS-Baumbank entwickelt. Es
liegen drei heuristische Regeln zugrunde:4
• Jede Kategorie X hat nur eine Ebene der Projektion: XP
• Jedes Dependens Y projeziert zu einer YP nur dann, wenn er eigene Dependentien
hat.
• In der KS ist jedes Dependens Y die Schwester von seinem Kopf X. Falls Y eigene
Dependentien hat, wird er zu YP projeziert und die YP wird zu Schwester von X.
3
aus (Xia und Palmer, 2001) ins Deutsche übertragen
4
aus (Xia und Palmer, 2001) ins Deutsche übertragen
15
22. 3 Bisherige Ansätze
Abb. 3.2: Regeln der X-Bar-Theorie (a) und Algorithmus 1: DS (b) und KS (c) (aus Xia
et al., 2009)
Der Algorithmus konvertiert die DS in der Abbildung 3.4a in die KS in (3.4b). Y
projeziert nicht zu YP, weil er keine Dependentien hat. Im Gegensatz zu Y haben Z
und W Dependentien. Sie projezieren deswegen zu ZP und WP und werden in KS zu
Schwester vom Kopf X.
Die DS in der Abbildung 2.1b wird dem Algorithmus folgend in die KS in (3.5) transfor-
miert.
Algorithmus 3
Die beiden Algorithmen - 1 und 2 - verwenden keine sprachspezifische Information. Das
Ziel von Xia und Palmer (2001) war jedoch, einen Transformationsvorgang zu entwickeln,
der KSen produziert, die möglichst ähnlich einer bereits vorhandenen Baumbank sind. Der
Algorithmus sollte somit die Baumbank-spezifischen Informationen in Betracht ziehen.
Die sprachspezifischen Information werden in Form von drei Tabellen zusammengefasst:
Projektionstabelle, Argumenten- und Modifikatortabellen. Die Projektionstabelle spezifi-
ziert die Projektionen für jede Kategorie. Argumenten- und Modifikatortabellen fassen
Argumente bzw. Modifikatoren, die an den Kopf angeknüpft werden können, sowie ihre
Position bezüglich des Kopfes zusammen.
Es werden drei heuristische Regeln definiert:5
• Jede Kategorie hat nur eine einzige Projektion bzw. Projektionskette, wie es in der
Projektionstabelle festgelegt ist.
• Die Kategorie projeziert zu einer höheren Ebene nur, falls es nötig ist.
5
aus (Xia und Palmer, 2001) ins Deutsche übertragen
16
23. 3 Bisherige Ansätze
Abb. 3.3: Die von Algorithmus 1 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia
et al., 2009)
• Die Projektion des Dependens wird an die möglichst tiefste Stelle der Projektion
seines Kopfes angeknüpft.
Die minimale Projektion für Dependentien (Regel 2) und die tiefste Verknüpfungsstelle in
der Projektion des Kopfes (Regel 3) bestimmt der Algorithmus anhand von Argumenten-
und Modifikatortabellen.
Der Aufbau von einer ganzen KS aus KS-Segmenten wird in der Abbildung 3.6 gezeigt.
(a)-(d) sind die Dependenten vom Kopf join; (e) ist die Projektion des Kopfes. Die Pfeile
weisen auf die Verknüpfungsstellen hin. Damit (a) an (f) angehängt wird, soll NNP
Vinken zur NP projeziert werden (anhand der Argumententabelle); VP kann NP als
Argument nehmen, nicht aber eine NNP.
17
24. 3 Bisherige Ansätze
Abb. 3.4: Das Schema für Algorithmus 2: DS (a) und KS (b) (aus Xia et al., 2009)
Ergebnisse
Die Ergebnisse der Evaluierung von drei Algorithmen kann man der Tabelle 3.1 entneh-
men.
Recall Presicion F-Measure No-cross Ave cross Test/Gold
Alg1 81.34 32.81 46.76 50.81 0.90 2.48
Alg2 54.24 91.50 68.11 94.90 0.10 0.59
Alg3 86.24 88.72 87.46 84.33 0.27 0.98
Tab. 3.1: Ergebnisse der Evaluierung von drei Algorithmen auf Sektion 0 der Penn
Treebank (unlabeled)
No crossing stellt den Anteil von Sätzen dar, die keine überkreuzte Brackets haben.
Average crossing ist Durchschnittszahl von überkreuzten Brackets pro Satz. Die letzte
Spalte bezeichnet das Verhältnis zwischen der Anzahl von Brackets, die vom Algorithmus
erzeugt werden, und deren Anzahl im Goldstandard. Der Algorithmus 1 erzeugt viel
mehr Brackets als im Goldstandard, der Algorithmus 2 erzeugt weniger, und Algorithmus
3 fast die gleiche Anzahl von Brackets.
Die Unterschiede zwischen erzeugten Bäumen und Goldstandard wurden anhand der
ersten 20 Sätze analysiert. Es wurden 31 Fehler erfasst, die aus folgenden Gründen
verursacht wurden:
• 3 Fehler durch Fehler in den Projektion-, Argumenten- und Modifikatortabellen
• 14 Fehler (fast die Hälfte) durch Unterschiede zwischen den heuristischen Regeln
des Algorithmus und dem Annotationschema der Penn Treebank
18
25. 3 Bisherige Ansätze
Abb. 3.5: Die von Algorithmus 2 erzeugte KS für DS in der Abbildung 2.1b (vgl. Xia
et al., 2009)
• 7 Fehler durch Inkonsistenz (inconsistency) im Annotationsschema der Penn Tree-
bank
• 7 Fehler durch Fehler in den Input-DSen
3.2 Xia et al. (2009)
Xia et al. (2009) stellen einen Algorithmus für Konvertierung von DS in KS vor. Der
Algorithmus zerlegt die Input-DS in DS-Segmente, ersetzt jedes DS-Segement bzw. DS-
Pattern mit einem KS-Segement und fasst die KS-Segmente zusammen. DS-Segemente
sind Dependenzrelationen mit assoziierter Information: Typ der Dependenzrelation, POS-
Tags des Kopfes und des Dependens, die Position des Dependens bezüglich des Kopfes
(links oder rechts), die Information, ob das Dependens ein Blattknoten ist, und die
Information, ob andere Dependentien vorhanden sind. Im Gegensatz zum Ansanz von
Xia und Palmer (2001), in dem die Dependenzrelationen in drei Typen - Spezifikatoren,
Modifikatoren und Argumente - unterteilt werden, berücksichtigen Xia et al. (2009) alle
Typen der Dependenzrelationen: Subjekt, Objekt, etc. KS-Segmente bzw. KS-Pattern
sind KS-Bäume der Höhe 1 mit einem Kopf und zwei Tochterknoten. Die Korrespondez-
beziehungen zwischen den Segementen bzw. Pattern werden als Konvertierungsregeln
(conversion rules) definiert. Diese Regeln werden anhand des Trainingskorpus gelernt. In
der Abbildung 3.7 werden die Konvertierungsregeln dargestellt, die für die Erzeugung
19
26. 3 Bisherige Ansätze
Abb. 3.6: Die von Algorithmus 3 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia
et al., 2009)
des Baums in der Abbildung 2.1b verwendet werden.
Der Algorithmus (Xia et al., 2009:165), der einen gesamten Baum erzeugt, ist wie folgt:
(1) wenn X, die Wurzel von DS, keine Dependentien hat
(2) die Output-KS enthält nur X; Ende
(3) für jedes Kind Y von X
(4) erzeuge (partielle) KS-Bäume TY für jeden untergeordneten DS-Baum, für den
Y die Wurzel ist
(5) initialisiere eine Projektionskette, PROJ_CHAIN, für X
(6) für jedes linke Kind Y von X in der DS, verarbeite von rechts nach links
(7) (a) wähle eine Konvertierungsregel r für Relation (X,Y) anhand der PROJ_CHAIN
(8) (b) wende die Regel r an durch Updating von PROJ_CHAIN und Anhängen
von TY an PROJ_CHAIN
(9) Dasselbe wie in (6)-(8), aber für jedes rechte Kind Y von X, verarbeite von rechts
nach links
(10) verschmelze die Dominanzverbindungen in PROJ_CHAIN
20
27. 3 Bisherige Ansätze
Abb. 3.7: Konvertierungsregeln (aus Xia et al., 2009)
Es sei die DS in der Abbildung 3.1a und die Konvertierungsregeln in (3.7) gegeben. Zeilen
(3)-(4) erzeugen die KS-Bäume für Dependenten von join (Abbildung 3.8( b1)-(b4)). Die
Zeile (5) erzeugt eine Anfangsprojektionskette (initial projection chain) wie in Abbildung
3.9a. Jede Iteration der Zeilen (6)-(8) (und (9) für rechte Töchter) hängt einen Teilbaum
an den Initial-Baum an. Die Schritte werden in der Abbildung 3.9 dargestellt. Die Kreise
markieren die tiefste Position an der Projektionskette, wo die nächste Verknüpfung
vorkommen darf. Zum Beispiel, nach der Verknüpfung von will an join (3.9b) ist das
nächststehende Wort Vinken. Der umkreiste VP-Knoten in (3.9b) weist darauf hin, dass
das Wort Vinken bzw. seine Projektionskette an diesen VP-Knoten angehägt werden
darf.
Es gibt auch Fälle, wenn ein DS-Segment in der DS mehrere Konvertierungsregeln matcht:
Regeln, die dasselbe DS-Pattern aufweist, werden als ambig bezeichnet (vgl. Xia et al.,
2009:166). Für Disambiguierung wurden zwei einfache Strategien (Xia et al., 2009:167)
realisiert:
• (S1) Es wird die meist vorkommende Regel ausgewählt, wobei die Häufigkeiten
anhand der Trainingsdaten ermittelt wurden.
• (S2) Es wird die Regel anhand der aktuellen Projektionskette ausgewählt. Der
Algorithmus zieht die Regeln vor, die eine kleinere Anzahl an Knoten einfügen, und
bindet den untergeordneten Baum an die tiefste Position der Projektionskette an.
Die Ergebnisse können der Tabelle 3.2 entnommen werden.
21
28. 3 Bisherige Ansätze
Abb. 3.8: Input-DS und Teilbäume, die von Zeilen (3)-(4) des Algorithmus erzeugt wurden
(aus Xia et al., 2009)
Recall Precision F-Measure
Sektion 22, labled
S1 90.7 88.1 89.4
S2 92.8 80.8 86.4
Sektion 0, unlabled
S2 91.76 89.19 90.46
Tab. 3.2: Ergebnisse der Evaluierung von Algorithmus von Xia et al. (2009) (labeled und
unlabeled)
Es gibt zwei Hauptursachen der Fehler: das Fehlen von nötigen Konvertierungsregeln
und falsche Auswahl von Konvertierungsregeln, falls ein DS-Pattern mehrere Regeln
matcht. Die Disambiguierung erfolgt im zweiten Schritt. Bei der Strategie S2, die bessere
Ergebnisse liefert als S1, ist die Fehlerrate der Regelauswahl 7.98%, d.h. für jede 100
DS-Segemente wird etwa 8 mal das falsche KS-Segement ausgewählt.
3.3 Resume
Algorithmen, die DSen in KSen konvertieren, bestehen aus zwei Schritten:
• den DS-Segmenten werden die KS-Segmente zugewiesen
• aus den KS-Segmenten wird eine gesamte KS erzeugt
22
29. 3 Bisherige Ansätze
Abb. 3.9: Schrittweise Verknüpfen von Dependenten von join (aus Xia et al., 2009)
Bei Xia und Palmer (2001) ist der erste Schritt deterministisch mittels der Projektionsta-
belle realisiert. Jeder POS-Tag hat nur eine Projektion. Diese ”one-projection-chain-per-
category”(Xia und Palmer, 2001) Annahme ist zu streng (vgl. Xia et al., 2009:163) und
verursachte den größten Fehleranteil. Diese Beschränkung wurde von Xia et al. (2009) in
gewisser Maße bewältigt: die Konvertierungsregeln wurden anhand des Korpus gelernt
(3513 Regeln wurden induziert), wodurch das System auch robuster wurde. Außerdem
wurde eine Menge von Informationen (POS, Typ der Dependenzrelation, u.a.) verwendet,
um die Konvertierungsregeln möglichst spezifisch zu machen.
Die Erzeugung des gesamten Konstituentenbaums ist in beiden Algorithmen determinis-
tisch. Die Verschmelzung von KS-Segmenten wird durch heuristische Regeln gesteuert.
Diese Regeln sind spezifisch bezüglich des Annotationsschemas. Ihre Entwicklung setzt
eine tiefe gründliche Analyse von Konstituentenstrukturen des gegebenen Annotations-
schemas voraus. In (Xia und Palmer, 2001) verursacht der Unterschied zwischen den
heuristischen Regeln im Baumerzeugungsalgorithmus und dem Annotationsschema von
Penn Treebank fast die Hälfte der Fehler. Xia et al. (2009) weisen darauf hin, dass ihr
KS-Generierungsmechanismus beinahe perfekt ist. Es wird aber vorausgesetzt, dass Kon-
vertierungsregeln richtig ausgewählt werden müssen. Das setzt aber ein fortgeschrittenes
Verfahren (im Vergleich zu S1 und S2 Disambiguierungsstrategien) voraus.
23
30. 4 Statistischer Ansatz
4.1 Statistische Verfahren in der Sprachverarbeitung
Die Konvertierung von DSen in KSen kann als ein Prozess angesehen werden, bei dem in
jedem Schritt eine Entscheidung getroffen wird: (1) welches Konstituentenstruktur-
Segment dem gegebenen Dependenzstruktur-Segment zugeordnet wird, (2) wie die
Konstituentenstruktur-Segmente verknüpft werden.
In den bisherigen Ansätzen (Xia und Palmer, 2001; Xia et al., 2009) wird das Ent-
scheidungsverfahren durch heuristische Generierungsregeln realisiert. Die Regeln werden
auf der Basis einer Datenmengenanalyse bzw. einer Korpusanalyse sowie mithilfe von
Expertenkenntnissen ermittelt. Die Anwendung von Regeln wird durch die jeweiligen
Bedingungen beschränkt und als prozedurales Programm realisiert.
Sprachverarbeitungssysteme, die auf Regeln basieren, werden regelbasierte Systeme ge-
nannt. Sie werden auch als Systeme bezeichnet, die regelbasierte Methoden verwenden.
Eine Alternative zu den regelbasierten Systemen in der Sprachverarbeitung sind statis-
tische Systeme. Dabei wird oft die Einbettung von probabilistischen Modellen in die
Verarbeitung gemeint (vgl. Nivre, 2002). Solche Systeme werden durch eine Zwei-Ebenen-
Architektur gekennzeichnet. Diese Zwei-Ebenen-Architektur ist charakterisiert durch die
Unterscheidung zwischen Generierung und Selektion. Dabei generiert das regelbasierte
Verfahren den Raum von möglichen Ausgaben/Hypothesen (space of possible outputs)
und das probabilistische Verfahren wählt die wahrscheinlichste Hypothese aus diesem
Raum aus (vgl. Humphreys et al., 2001; Belz, 2005).
Ein statistisches Verfahren kann man allgemein wie folgt beschreiben:
1. Es wird ein Algorithmus bzw. ein Verfahren entwickelt, das nicht-deterministisch ist
und nicht eine einzige Ausgabe, sondern mehrere Ausgaben/Hypothesen liefert. Es
werden vereinfachte Generierungsmodelle1 verwendet, die zu einer Übergenerierung
1
Die Generierung ist hier in einem breiten Sinne zu verstehen. Jeder Algorithmus generiert einen Output
aus einem Input.
24
31. 4 Statistischer Ansatz
führen – d.h. zu einer großen Anzahl an Alternativen.
2. Jeder Hypothese wird ein Wahrscheinlichkeitswert zugewiesen. Die Wahrscheinlich-
keit wird mit Hilfe eines probabilistischen Modells berechnet. Ein probabilistisches
Modell berechnet Wahrscheinlichkeiten P(Output|Input), wobei Input eine Eingabe
und Output eine Ausgabe ist.
3. Die Vorhersage mit einem probabilistischen Modell verlangt Schätzungen für die
Wahrscheinlichkeiten P(Output|Input) basierend auf den Trainingsdaten. Die Schät-
zung erfolgt durch eine Schätzungsmethode (z.B. Maximum-Likelihood-Estimierung).
4. Es wird die wahrscheinlichste Hypothese ausgewählt und als Ergebnis zurückgege-
ben:
Outputbest = argmaxOutputP(Output|Input) (4.1)
Die Zwei-Ebenen-Architektur hat folgende Vorteile:
• Beide Verfahren - Generierung und Selektion - können unabhängig von einander
definiert werden. Somit kann der Generator bzw. der probabilistische Selektor
komplett ersetzt oder verändert werden.
• Bei der Übergenerierung werden neben den ”wohlgeformten” Ausgaben auch zahl-
reiche suboptimale Konstruktionen produziert. Ein solches Verfahren sichert somit
eine breite Abdeckung und steigert die Robustheit des Systems.
4.2 Modell für Abbildung von DS in KS
In diesem Abschnitt wird die Generierung von KS aus DS aus Sicht der probabilistischen
Modellierung veranschaulicht. Im Allgemeinen kann die Generierung folgendermaßen
dargestellt werden: Es wird jedem DS-Segment dsi ein KS-Segment csi zugewiesen. Jede
Relation in der DS – relds(dsi, dsj), wobei dsi der Kopf ist – wird in Beziehung gesetzt
zu einer Dominanzrelation in der KS – relcs(csi, csj), wobei csi csj direkt dominiert
(Abbildung 4.1).
Da eine DS als Input gilt und eine KS als Output, wird das probabilistische Modell dann
wie folgt definiert:
P(CS|DS) (4.2)
Die Wahrscheinlichkeiten (CS|DS) werden mit Hilfe der Maximum-Likelihood-Estimierung
(MLE) auf dem Trainingskorpus geschätzt. Die Wahrscheinlichkeit einer KS, gegebenen
25
32. 4 Statistischer Ansatz
Abb. 4.1: Abbildung von DS in KS
eine DS, ist gleich dem Verhältnis von der Anzahl der Vorkommen (Count) von KS, die in
Korrespondenzbeziehung mit der gegebenen DS steht, und der Anzahl aller Vorkommen
der DS im Trainingskorpus:
P(CS|DS) = Count(CS, DS)/Count(DS) (4.3)
Es ist leicht vorzustellen, dass die meisten (KS, DS) Paare im Korpus unikal sind. Wird
dieses Modell, so wie es ist, verwendet, kann es zur Folge haben, dass die meisten Wahr-
scheinlichkeiten gleich 0 sind. Um dieses sogenannte Sparse-Data-Problem zu vermeiden,
kann eine Reihe von Unabhängigkeitsannahmen gemacht werden.
Nehmen wir an, dass die Wahrscheinlichkeit der gesamten KS sich aus den Wahr-
scheinlichkeiten der KS-Segmente und den Verbindungen zwischen ihnen ergibt. Die
Wahrscheinlichkeit jedes KS-Segments csi ist bedingt durch das DS-Segment dsi, mit
dem csi in einer Abbildungsbeziehung steht:
P(csi|dsi) (4.4)
Die Wahrscheinlichkeit einer Verbindung ist abhängig von der Verbindung zwischen den
26
33. 4 Statistischer Ansatz
DS-Segmenten, auf die die KS-Segmente abgebildet werden:
P(relcs(csi, csj)|relds(dsi, dsj)) (4.5)
Die Bedeutung von rel(cs, csj) und rel(dsi, dsj) wird später genauer spezifiziert. Die
Wahrscheinlichkeit einer KS, die aus KS-Segmenten und den Verbindungen zwischen ihnen
besteht, kann als Produkt der Wahrscheinlichkeiten der KS-Segmente und deren Verbin-
dungen angenommen werden. Da DS und KS baumartig sind, kann die Wahrscheinlichkeit
einer KS, die aus n KS-Segmenten besteht, wie folgt definiert werden:
P(CS|DS) ≈
n
i=1
(P(csi|dsi) ∗
k
j=1
P(relcs(csi, csj)|relds(dsi, dsj))) (4.6)
wobei
• k die Anzahl der Kinder-KS-Segmente von csi ist
• n die Anzahl der KS-Segmente csi von CS ist, und
• csi und dsi bzw. csj und dsj in einer Abbildungsbeziehung zueinander stehen.
Obwohl diese Formel eine erste Generalisierung ist, ist sie ein guter Startpunkt für die
Entwicklung eines statistischen Generierungsverfahrens von KSen aus DSen.
27
34. 5 Daten: LFG-Korpus
Das Lernen von Konvertierungsregeln und das Training von probabilistischen Modellen
setzen einen Korpus voraus, der als Trainingsdaten verwendet werden kann. Im Rahmen
dieser Arbeit wurde ein LFG-Korpus verwendet, der automatisch erstellt wurde (Cahill
et al., 2002, 2004). Der Korpus besteht aus zwei Teilen: LFG-C-Strukturen, die als
Penn-Treebank-Bäume dargestellt sind, und LFG-F-Strukturen, die beim automatisierten
Verfahren anhand der Penn Treebank ermittelt wurden.
Die C-Strukturen im LFG-Korpus sind Konstituentenbäume aus der Penn Treebank
(Marcus et al., 1993, 1994). Die Penn Treebank verfügt über mehrere Annotationsebenen:
• POS-Annotation: Alle Präterminalen werden mit POS-Tags gekennzeichnet (siehe
das POS-Tagset im Anhang A.1).
• Annotation von Konstituenten und ihren syntaktischen Kategorien: Mit Hilfe von
Klammern werden die Grenzen der Konstituenten markiert. Jede Konstituente
wird mit einer syntaktischen Kategorie versehen (siehe das syntaktische Tagset im
Anhang A.2).
• Außerdem verfügt die Penn Treebank über Annotationen für syntaktische Funktio-
nen (siehe Anhang A.3), Nullelemente, Spuren und Koreferenz.1
In der Abbildung 5.1 ist ein Baum aus der Penn Treebank dargestellt. Das Beispiel zeigt,
wie funktionale Tags (angehängt an syntaktische Kategorien) verwendet werden, um
syntaktische Funktionen auszudrücken (z.B. NP-SBJ für das Subjekt they). Die Bewegung
des Fragewortes what wird durch eine Spur gekennzeichnet, die eine Index-Nummer (1)
koindiziert.
1
Eine Auflistung aller kodierten Phänomene findet sich in Marcus et al. (1993, 1994).
28
35. 5 Daten: LFG-Korpus
Abb. 5.1: Ein Beispielbaum aus der Penn Treebank
Die Penn Treebank wurde mit LFG-F-Strukturen automatisch annotiert. Der F-Struktur-
Annotationsalgorithmus ist in Cahill et al. (2002), Cahill (2004), Cahill et al. (2008) im
Detail beschrieben. Der Algorithmus annotiert zuerst die Penn-Treebank-Bäume mit funk-
tionalen Gleichungen. Dabei werden verschiedene linguistische Phänomene berücksichtigt:
Prädikat-Argument-Strukturen, Koordination, Wh-Verschiebung, Passivkonstruktionen,
Kontroll- und Raising-Verben u.a. Danach generiert ein Constraint Solver aus diesen
Annotationen F-Strukturen, die Referenzen auf die Knoten der KS-Bäume enthalten.
Die F-Strukturen wurden hinsichtlich Abdeckung und Qualität evaluiert. Die Abdeckung
ist beinahe vollständig: für 99.83% der Sätze wurden F-Strukturen ermittelt. Die Qualität
der F-Strukturen wurde gegen manuell ermittelte F-Strukturen (Goldstandard) für 105
zufällig ausgewählte Bäume aus der 23. Sektion von Penn Treebank evaluiert. Der
Algorithmus erreicht F-Measure von 96.3%.2
Im vorherigen Kapitel wurde darauf hingewiesen, dass die Generierung von KSen aus
DSen die Aufteilung von Strukturen in Segmente voraussetzt. Die Teile der jeweiligen
2
In (Burke et al., 2004) können detailierte Ergebnisse der Qualität von F-Strukturen nachgeschaut
werden.
29
36. 5 Daten: LFG-Korpus
Strukturen müssen in einer Korrespondenzbeziehung stehen. Es stellt sich damit die
Frage, was KS- und DS-Segemente im LFG-Korpus sind.
Da es sich um C- und F-Strukturen handelt, wird die Beziehung zwischen Strukturteilen
durch die Funktion φ repräsentiert. Wenn mehrere Knoten auf eine F-Struktur abgebildet
werden, können diese Knoten als partielle Bäume konzeptualisiert werden. Zum Beispiel
kann der gesamte Baum in der Abbildung 5.2 (links) als aus vier elementaren Bäumen
bestehend angesehen werden.3 Die Beziehung zwischen solchen Bäumen und F-Strukturen
kann als Funktion Φ erfasst werden, die jedem partiellen Baum eine F-Struktur zuweist.
(In der Abbildung 5.2 wird dies durch punktierte Linien dargestellt). Die Funktion Φ ist
als aufeinanderfolgende Anwendung der Funktion φ an jeden Knoten des elementaren
Baums zu verstehen (vgl. Cahill und van Genabith, 2006:1034).
Abb. 5.2: Partielle Bäume des Satzes The equity market was illiquid
Die Bäume sind aneinander angehängt. Jeder solcher Baum besteht aus Knoten, die mit
der Gleichung (↑=↓) markiert sind, einem Terminalsymbol, welches für das lexikalische
Element steht (das Terminalsymbol kann aber mit einem leeren String belegt werden)
und einem Wurzelknoten, der mit einer Gleichung der Art (↑< Attribut >=↓) markiert
ist. Die grammatische Funktion, die durch das Attribut repräsentiert ist, beschreibt
in gewissem Maße die Relation zwischen dem dominierenden und dem dominierten
3
Vgl. Kaplan (1995): ”When several nodes map onto the same f-structure, that f-structure can be loosely
interpreted as the equivalence class or quotient of nodes induced by the correspondence. Conceptually,
it represents the folding together or normalisation of information carried jointly by the individual
nodes that map onto it.”
30
37. 5 Daten: LFG-Korpus
Abb. 5.3: Referenzen (Links) im LFG-Korpus
Baum. In der F-Struktur wird diese grammatische Funktion als Relation zwischen den
Teil-F-Strukturen dargestellt.
Im LFG-Korpus werden die Korrespondenzbeziehungen durch Referenzen (Links) re-
präsentiert. Die Knoten der C-Strukturen sind mit Indizes versehen. Die F-Strukturen
enthalten diese Indizes als Attribut-Wert-Paare: [LINK index] (Abbildung 5.3).
Die partiellen Bäume werden bei der Generierung als KS-Segmente fungieren. Diese
elementaren, meistens nur aus einer Kette von Knoten bestehenden Bäume werden
in der Arbeit als Initial-Bäume bezeichnet, da aus diesen Bäumen andere komplexere
Bäume abgeleitet werden. (In der Abbildung 5.3 sind die Initial-Bäume mit fetten Kanten
markiert.) Die Bäume, an die andere Bäume angehängt werden, werden als Mutterbäume
und die angehängten Bäume als Tochterbäume bezeichnet. Die LFG-F-Strukturen werden
als DSen fungieren. F-Strukturen können als Dependenzbäume dargestellt werden, wobei
lange Dependenzen durch Doppeleintrag von F-Strukturen oder durch Einfügen von
31
38. 5 Daten: LFG-Korpus
Nullelementen wiedergegeben werden können (s. Kapitel 2.2).
Die Punktuationszeichen sind in F-Strukturen nicht kodiert. Es gibt somit keine expliziten
Referenzen von F-Strukturen auf die Punktuationszeichen in C-Strukturen.
Es gibt F-Strukturen, die keine Referenz auf C-Strukturen haben. Das sind die SPEC-
markierten F-Strukturen. Diese Strukturen haben immer eine eingebettete F-Struktur,
die mit einer spezifizierten grammatischen Funktion markiert ist: entweder DET (Deter-
minant), oder QUANT (Quantifikator).
32
39. 6 Generierung von Penn-Treebank-Bäumen
aus LFG-F-Strukturen
6.1 Modell für Abbildung von LFG-F-Strukturen in
Penn-Treebank-Bäume
Das Ziel der Arbeit ist es, einen statistischen Ansatz zu entwickeln, mit dem KSen aus
DSen generiert werden können. Wie in den bisherigen Ansätzen von Xia und Palmer
(2001) und Xia et al. (2009) läuft die Generierung von KS aus DS in dieser Arbeit in
zwei Schritten ab:
• den DS-Segmenten werden KS-Segmente zugewiesen
• aus den KS-Segmenten wird eine gesamte KS erzeugt
Im Gegensatz zu den bisherigen Ansätzen wird in dieser Arbeit davon ausgegangen, dass:
• DSen (F-Strukturen) keine Linearisierung aufweisen,
• DSen (F-Strukturen) keine POS-Annotation enthalten,
• KSen (Penn-Treebank-Bäume) Nullelemente haben, die auch in F-Strukturen re-
präsentiert sind,
• die lexikalische und die morphosyntaktische Informationen (wie Tempus, Numerus,
Person, etc.) für Parametrisierung des probabilistischen Modells verwenden werden.
Wie bei Xia et al. (2009) werden die Korrespondenzbeziehungen zwischen Strukturseg-
menten anhand des Korpus gelernt. Statt eines regelbasierten Generierungsverfahrens
einer gesamten KS aus KS-Segmenten, wird ein naives Ableitungsverfahren entwickelt. Es
werden alle möglichen Penn-Treebank-Bäume aus Initial-Bäumen erzeugt und dann wird
der wahrscheinlichste Baum ausgewählt (Übergenerieren und Selektion). Die Ambiguität
bei der Auswahl der Initial-Bäume sowie die Auswahl der Verbindungen bei der Erzeugung
der Baumstruktur wird dem probabilistischen Modell überlassen.
33
40. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Im Kapitel 4 wurde ein allgemeines probabilistisches Modell definiert, das die beiden
Schritte zusammenfasst:
P(CS|DS) ≈
n
i=1
(P(csi|dsi) ∗
k
j=1
P(relcs(csi, csj)|relds(dsi, dsj)))
Hinsichtlich dessen, dass Initial-Bäume als KS-Segmente und (Teil-)F-Strukturen als
DS-Segmete fungieren, kann diese Formel neugeschrieben werden:
P(Tree|FS) ≈
n
i=1
(P(iti|fsφ(iti)) ∗
k
j=1
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))) (6.1)
wobei Tree ein Penn-Treebank-Baum ist, der aus F-Struktur FS generiert wurde, it
ein Initial-Baum, ein Segment vom gesamten Tree, und fs eine (Teil-)F-Struktur in
der gesamten FS. fsφ(iti) repräsentiert die F-Struktur, auf die iti durch die Funktion φ
abgebildet wird.
P(iti|fsφ(iti)) ist die Wahrscheinlichkeit eines Initial-Baums bedingt durch die F-Struktur,
mit der er in Korrespondenzbeziehung steht. Die Wahrscheinlichkeit eines Initial-Baums,
bei der gegebenen F-Struktur, wird mit Hilfe der Maximum-Likelihood-Estimierung
folgenderweise berechnet: sie ist gleich dem Verhältnis von der Anzahl der Vorkommen
(Count) von Korrespondenzbeziehungen zwischen dem Initial-Baum und der F-Struktur
und der Anzahl aller Vorkommen der F-Struktur im Trainingskorpus.
P(iti|fsφ(iti)) =
Count(iti, fsφ(iti))
Count(fsφ(iti))
(6.2)
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) repräsentiert die Wahrscheinlichkeit einer Verbin-
dung zwischen Initial-Bäumen bezüglich einer gegebenen Relation zwischen F-Strukturen,
auf die die Initial-Bäume abgebildet werden. relcs(iti, itj) drückt aus, dass itj an iti
angehängt ist (die Wurzel von itj ist an einen Nichtterminalen-Knoten in iti angeknüpft).
Mit anderen Worten ausgedrückt ist itj der Tochterbaum von iti. rel(iti, itj) spiegelt die
Dependenzrelation (bzw. Einbettung) relds(fsφ(iti), fsφ(itj)) wieder. fsφ(iti) subordiniert
fsφ(itj) in FS.
34
41. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Bei der Spezifizierung der jeweiligen Verbindung sind drei Punkte relevant: Auswahl des
Anknüpfungsknotens, Position des Tochterbaums bezüglich des Mutterbaums - links oder
rechts -, und die Position des Tochterbaums bezüglich der anderen Tochterbäume (falls
mehrere Tochterbäume an der selben Seite angehängt sind). In der Abbildung (6.1a) sind
ein Initial-Baum B0 dargestellt und die Positionen, an denen der Tochter-Baum B1 oder
B2 angehängt werden kann. In (6.1b) werden alle möglichen Positionen für Anknüpfung
des Baums B2 an den Baum B0 gezeigt, nachdem B1 angebunden wurde. Dabei soll
folgendes entschieden werden:
• An welchem Knoten – NT0 oder NT1 – soll der Baum B2 angeknüpft werden?
• Wie ist die Position bezüglich des Mutterbaums B0 – links oder rechts ?
• Wie ist die Position bezüglich des Baums B1?
Abb. 6.1: Verknüpfungsoperation (formal)
35
42. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Es wird ein spezifiziertes Modell definiert, das diese Faktoren berücksichtigt. Formal sieht
es wie folgt aus:
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) = P(anode, dir, LN, RN|relds(fsφ(iti), fsφ(itj)))
(6.3)
iti ist ein Initial-Baum, an den ein Tochterbaum itj angehängt ist. anode (attachment
node) ist ein Verknüpfunsknoten im iti. dir (direction) bedeutet die Position des Tochter-
baums relativ zum iti - links oder rechts. LN und RN sind linke oder rechte Nachbarbäume.
Es wird immer nur der nächststehende Baum berücksichtigt, nicht die ganze Liste von
Schwesterbäumen. Für den vom Initial-Baum entfernten Tochterbaum wird ein spezieller
Knoten NULL eingeführt (Abbildung 6.1d).
Im weiteren wird ein Algorithmus vorgestellt, der die beiden Schritte zusammenfasst.
6.2 Algorithmus
Die Umwandlung von F-Struturen in Penn-Treebank-Bäume läuft in zwei Schritten ab:
1) Ermittlung von Initial-Bäumen und 2) Erzeugung eines gesamten Baums aus den
Initial-Bäumen.
Im ersten Schritt werden zunächst die Initial-Bäume jeder Teil-F-Struktur zugeordnet.
Die Zuordnung hängt von den Eigenschaften der F-Struktur ab. Es werden die n besten
Initial-Bäume in die weitere Verarbeitung übernommen. Die Wahrscheinlichkeit eines
Initial-Baums ist P(iti|fsφ(iti)) und wird nach der Formel 6.2 berechnet. Aus den im
ersten Schritt ermittelten Initial-Bäumen wird der wahrscheinlichste Baum schrittweise
durch Ableitung von partiellen Bäumen erzeugt.
Die Bäume werden mit Hilfe einer Verknüpfungsoperation abgeleitet. Die Verknüpfungs-
operation wird folgendermaßen definiert: Ein Initial-Baum oder eine Ableitung davon
kann an jeden Nicht-Terminalen-Knoten des anderen Initial-Baums angehängt werden.
Dabei kann er (der Tochterbaum) von jeder Seite des Mutterbaums (von links oder
von rechts) angeknüpft werden. Falls es dort noch andere Tochterbäume gibt, kann
der Tochterbaum an jeder Seite eines anderen Tochterbaums angehängt werden. In der
Abbildung 6.1 wird das Verknüpfungsverfahren formal dargestellt. Mit ’...’ werden die
Stellen markiert, an denen die nächste Verknüpfung durchgeführt werden kann. In (6.1c)
36
43. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
ist eine mögliche Konfiguration repräsentiert, die nach dem Anhängen von B1 und B2 an
B0 entsteht.
Die Verarbeitung der F-Struktur läuft ”von innen nach außen” ab. Dabei beginnt sie mit
den am tiefsten eingebetteten F-Strukturen, die untergeordnete F-Strukturen haben, und
läuft bis die gesamte F-Struktur erreicht ist. Bei jedem Schritt wird jeder Initial-Baum
der aktuellen F-Struktur durch Initial-Bäume (oder Ableitungen davon) der untergeord-
neten Teil-F-Strukturen erweitert – je Teil-F-Struktur ein Baum. Somit ergeben sich
Ableitungsbäume. Jeder Ableitungsbaum besteht aus einem Initial-Baum – Baumstamm
– und an ihn angehängten Bäumen. Falls mehrere Ableitungen möglich sind, wird nur
der wahrscheinlichste Ableitungsbaum (oder die n besten Ableitungsbäume) für jeden
Initial-Baum der F-Struktur beibehalten. Die Wahrscheinlichkeit des Ableitungsbaums
wird wie folgt berechnet:1
P(iti) =
P(iti|fsφ(iti)) ∗ k
j=1(P(itj) ∗ P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))) falls k > 0
P(iti|fsφ(iti)) falls k = 0
(6.4)
Hierbei ist iti der Ableitungsbaum, der entsteht, indem die partiellen Tochterbäume itj
an den Initial-Baum iti angehängt sind. k ist die Anzahl von Tochterbäumen. Fall es
keine Tochterbäume gibt, ist k gleich null. itj ist der Baumstamm des Tochterbaums
itj. (In der Abbildung 6.1c ist der Baum B0 ein Ableitungsbaum vom Baum B0 durch
Anhängen von B1 und B2. B0 ist der Baumstamm von B0.)
Wenn die gesamte F-Struktur erreicht worden ist, wird der wahrscheinlichste Baum als
Ergebnisbaum ausgegeben.
Komplexität des Verfahrens
Durch die Verknüpfungsoperation werden alle möglichen Konfigurationen bzw. Baumstruk-
turen kombinatorisch generiert. Die Komplexität des Verfahrens ist wie die Komplexität
aller kombinatorischen Aufgaben sehr hoch. Die Komplexität der Ableitung ist von zwei
Parametern abhängig: Anzahl der Tochterbäume und Höhe des Initial-Baums, die gleich
der Anzahl der Nichtterminal-Knoten im Initial-Baum ist (in der Abbildung 6.1 werden
zwei Tochterbäume an einen Mutterbaum B0 der Höhe 2 angehängt). Sei n die Anzahl
von Tochterbäumen und sei die Höhe des Mutterbaums gleich 1, dann gibt es (n+1)!
1
Das ist eine rekursive Variante der Formel 6.1. Die Formel gibt den rekursiven Ablauf des Algorithmus
wieder.
37
44. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Kombinationen bzw. Möglichkeiten die Tochterbäume an den Mutterbaum anzuhängen.
Bei höheren Initial-Bäumen vergrößert sich entsprechend die Anzahl der Kombinationen.
Das hier repräsentierte Generierungsverfahren wäre bei einer großen Anzahl von Toch-
terbäumen und hohen Initial-Bäumen wegen der hohen Komplexität nicht anwendbar.
Deswegen wurde vorher eine durchschnittliche Anzahl von Tochterbäumen per Initial-
Baum und eine durchschnittliche Höhe der Initialbäume im LFG-Korpus untersucht. Es
wurde folgendes erfaßt:
• Die durchschnittliche Anzahl der an einen Initial-Baum anzuhängenden Bäume ist
ca. 1.76.
• 61.3% der Initial-Bäume haben die Höhe 1; 34.1% der Initial-Bäume sind von der
Höhe 2; 4.4% sind von der Höhe 3, und weniger als 1% der Initial-Bäume haben
eine größere Höhe als 4.
In Tabelle 6.1 wurde die Anzahl der Kombinationen hinsichtlich der Höhe des Initial-
Baums repräsentiert. Z.B. gibt es 6 Möglichkeiten zwei Tochterbäume an einen Initial-
Baum der Höhe 1 anzuknüpfen.
n (Höhe von Initial-Baum) Anteil der Bäume der Höhe n im Korpus Anzahl der Kombinationen (Ableitungsbäume)
1 61.3 6
2 34.1 20
3 4.4 42
4 > 1 72
Tab. 6.1: Anzahl der Ableitungsbäume, die von einem Initial-Baum der Höhe n und zwei
Tochterbäumen abgeleitet werden können
Die Untersuchungen auf dem Korpus zeigen, dass dieses naive Generierungsverfahren im
Prinzip angewendet werden kann. An dieser Stelle ist zu betonen, dass das Ziel dieser
Arbeit nicht die Entwicklung eines effizienten Generierungsverfahrens ist, sondern die
Entwicklung eines effizienten probabilistischen Modells, welches den optimalen Ableitun-
gen einen höheren Wahrscheinlichkeitswert zuweist. Der Generator kann immer durch
einen fortgeschrittenen Generator ersetzt werden.
38
45. 7 Experimente und Ergebnisse
7.1 Evaluierungsmetriken
7.1.1 Problem der Evaluierung von Konstituentenstrukturen
Durch Angabe aller direkten Dominanz- und Präzedenzbeziehungen lassen sich Konsti-
tuentenbäume vollständig spezifizieren. Die Generierung von KSen aus DSen ist nichts
anderes als die Ermittlung dieser Relationen. Somit soll die Evaluierung von erzeugten
KSen gegen KSen aus dem Goldstandard hinsichtlich dieser Relationen durchgeführt
werden.
Die Parseval-Metrik (Black et al., 1991), die für die Evaluierung von CFG-Parser verwen-
det wird, ist hier nicht anwendbar, da sie die Übereinstimmung der Wortreihenfolgen in
der Hypothese und im Goldstandard voraussetzt. Die lineare Ordnung der Wörter in der
erzeugten KS aus einer DS kann sich natürlich vom Goldstandard unterscheiden.
Zum Beispiel entsteht der Unterschied zwischen dem Hypothesenbaum (a) und dem
Goldstandard (b) in der Abbildung 7.1 durch die falsche Ordnung von VBD und ADJP-
PRD in der Verbalphrase. Der Evaluierungsalgorithmus soll diesen Fehler erkennen und
den Hypothesenbaum dafür bestrafen.
Im weiteren wird auf die Leaf-Ancestor-Metrik (Sampson und Babarczy, 2003) eingegan-
gen, anhand derer Bäume verglichen werden können, selbst wenn die Wortreihenfolge im
Hypothesenbaum und im Goldstandard unterschiedlich ist. Dabei wird ein Evaluierungs-
wert für den gesamten Baum zurückgegeben. Um die Dominanz- und Präzedenzrelationen
separat zu evaluieren, wurde eine Evaluierungsmetrik im Rahmen dieser Arbeit entwickelt.
Die neue Metrik wird in 7.1.3 vorgestellt. Die Ergebnisse der Experimente wurden mit
diesen beiden Metriken evaluiert.
39
46. 7 Experimente und Ergebnisse
Abb. 7.1: Hypothesenbaum und Goldstandard
7.1.2 Leaf-Ancestor-Evaluierung (LA)
Die Leaf-Ancestor-Evaluierung (Sampson und Babarczy, 2003) basiert auf dem Vergleich
jedes Pfades von dem Terminal zu der Wurzel im Hypothesenbaum mit dem entspre-
chenden Pfad im Goldstandard. Der Pfad besteht aus der Sequenz von inneren Knoten
zwischen dem Terminalknoten und dem Wurzelknoten des Baums und wird als String
dargestellt. Die Grenzen von Konstituenten werden auch berücksichtigt. Es werden Mar-
ker für Grenzen von Konstituenten in den Pfad eingefügt. Das Prinzip der Einsetzung
von Grenzmarkern ist wie folgt:
• Finde für jeden Terminal, der am Anfang der Phrase steht, den höchsten domi-
nierenden Phrasenknoten. Dabei soll die Phrase, die von diesem Knoten regiert
wird, mit diesem Terminal anfangen. Setzte den Links-Grenzmarker ”[” vor dem
Phrasenknoten-Label im Pfadstring ein. Zum Beispiel ist VP für das Wort was im
Baum (7.1a) die höchste Konstituente, die mit diesem Wort beginnt. Der Links-
Grenzmarker wird vor dem VP-Symbol im Pfadstring ”VBD [ VP S” eingeführt.
• Finde für jeden Terminal, der die Phrase schließt, den höchsten dominierenden
Phrasenknoten, der die Phrase regiert, die mit diesem Terminal endet. Füge den
Rechts-Grenzmarker ”]” nach dem Knoten-Label im Pfadstring hinzu. Für das Wort
illiquid im Baum (7.1a) ist S die höchste Konstituente, die mit diesem Wort endet.
Der Recht-Grenzmarker wird nach dem S-Symbol im Pfadstring ”JJ ADJP-PRD
VP S ]” eingeführt.
Die falsche Anordnung von VBD und ADJP-PRD in (7.1b) spiegelt sich in den unter-
schiedlichen Pfaden für Wörter was und illiquid wieder (siehe Tablle 7.6).
40
47. 7 Experimente und Ergebnisse
Terminale Pfad in Hypothesenbaum (a) Pfad in Goldstandard (b) Ähnlichkeit
the DT NP-SBJ [ S DT NP-SBJ [ S 1
equity NN NP-SBJ S NN NP-SBJ S 1
market NN NP-SBJ ] S NN NP-SBJ ] S 1
was VBD [ VP S VBD VP S ] 0.75
illiquid JJ ADJP-PRD [ VP S JJ ADJP-PRD VP S ] 0.8
LA-Wert für den ganzen Hypothesenbaum (b): Mittelwert 0.91
Tab. 7.1: Ergebnisse der LA-Evaluierung für den Baum aus der Abbildung 7.1b
Die Ähnlichkeit der zwei Pfadstrings c und g wird nach dieser Formel berechnet:
similarity = 1 −
Lv(c, g)
len(c) + len(g)
wobei Lv(c, g) die Levenshtein-Distanz zwischen c und g und len(c) und len(g) entspre-
chend die Länge von Strings c und g ist. Die Levenshtein-Distanz (auch Edit-Distanz)
bezeichnet einen Maß für den Unterschied zwischen zwei Zeichenketten. Die minimale
Anzahl der Operationen (Einfügen, Löschen und Ersetzen) für die Konvertierung einer
Zeichenkette in die andere stellt die Levenshtein-Distanz dar.1 Zum Beispiel wird die
Levenshtein-Distanz zwischen ”VBD [ VP S” und ”VBD VP S ]” folgendermaßen berech-
net: der zweite String kann sich aus dem ersten ergeben, wenn der Links-Grenzmarker
entfernt und ein Rechts-Grenzmarker eingeführt wird. Die Levenshtein-Distanz Lv(was)
ist gleich 2. Die Ähnlichkeit von was im Beispiel (b) ist 1 − 2/(4 + 4) = 0.75. Das Evalu-
ierungsergebnis für den ganzen Baum ist der Mittelwert aus den Ähnlichkeitswerten der
Pfade. In der Tabelle 7.1 sind Änlichkeitswerte sowie der gesamte LA-Wert repräsentiert.
Neben der Tatsache, dass die LA-Metrik die Evaluierung von Bäumen mit unterschiedli-
chen Wortreihenfolgen ermöglicht, weist sie noch weitere Vorteile auf:
• Die LA-Metrik ist nicht empfindlich bezüglich der unterschiedlichen Baumbankan-
notierungsschemata. Sampson und Babarczy (2003) sowie auch Rehbein und
Genabith (2007) weisen darauf hin, dass die LA-Metrik besser und angemessener
als Parseval-Metrik ist, um Unterschiede zwischen der Parsing-Ausgabe und dem
Goldstandard an unterschiedlichen Korpora wiederzuspiegeln.
• Die LA-Metrik ist im Prinzip für Evaluierung von Konstituentenstrukturen sowie
auch für die Evaluierung von Dependenzstrukturen ansetzbar. Dies macht sie für
1
Das Kosten jeder Operation ist normalerweise gleich 1.
41
48. 7 Experimente und Ergebnisse
spätere Evaluierungsexperimente im Bereich der Transformation zwischen DS und
KS attraktiv.
• Außerdem vermeidet die LA-Metrik einige Evaluierungsfehler, die für Parseval-
Metrik charakteristisch sind.2
7.1.3 Dominanz-Präzendenz-Relationen-Evaluierung (DPR)
Um die Dominanz- und Präzedenzrelationen separat zu testen, wurde eine neue Me-
trik entwickelt. Zugrunde liegt die Idee, dass der Baum als Menge von Dependenz-
und Präzedenzrelationen angesehen wird. Zum Beispiel kann der Baum in (7.1a) als
Set von Relationen repräsentiert werden.3: {S_NP-SBJ, S_VP, NP-SBJ_DT, NP-
SBJ_NN[equity], NP-SBJ_NN[market], VP_VBD, VP_ADJP-PRD, ADJP-PRD_JJ,
NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market], VBD>ADJP-PRD}
Es werden drei Maße berechnet: Recall, Precision und F-Measure als zusammenfassendes
Maß von Precision und Recall:
Recall = Anzahl der erkannten Relationen des Hypothesenbaums
Anzahl der Relationen im Goldstandard
Precision = Anzahl der erkannten Relationen des Hypothesenbaums
Anzahl der Relationen im Hypothesenbaum
F − Measure = 2 ∗ Recall∗Precision
Recall+Precision
Die Maße können für jeden Typ der Relationen separat berechnet werden. Zum Beispiel
unterscheiden sich die Bäume (7.1a) und (7.1b) durch eine Präzedenzrelationen (fett
markiert):
Precedence-Relationen in (a) aind { NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market],
VBD>ADJP-PRD }
Precedence-Relationen in (b) sind { NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market],
ADJP-PRD>VBD }
Recall (Präzedenzrelationen) = 4/5 = 0.8, Precision (Präzedenzrelationen) = 4/5 = 0.8
und F-Measure (Präzedenzrelationen) = 2*0,8*0,8 / (0,8 + 0,8) = 0,8
In Experimenten in dieser Arbeit wird F-Measure für jeden Typ der Relationen berechnet
und mit Hilfe von LA-Metrik werden Bäume als Ganzes evaluiert.
2
Für detailierte Erläuterung der Kritikpunkte über Parseval-Metrik siehe Sampson und Babarczy (2003).
3
Die Dependenzrelation wird als ein Paar von Knotensymbolen und einem dazwischen eingefügten
Unterstrich dargestellt. Das links stehende Knotensymbol steht für den dominierenden Knoten. Zum
Beispiel bedeutet die Relation A_B, dass A den Knoten B dominiert. In der Präzedenzrelation ist die
Ordnung durch ”>” repräsentiert. Die Relation A>B bedeutet, dass A und B die Schwesterknoten
sind und dass A vor dem B steht.
42
49. 7 Experimente und Ergebnisse
7.2 Daten und Vorverarbeitung
Der LFG-Korpus (Kapitel 5) wurde als Trainings- und Evaluierungskorpus in dieser
Arbeit benutzt. Der Korpus basiert auf dem Penn-Treebank-Korpus und besteht somit aus
24 Sektionen. Alle Modelle wurden auf Sektionen 02-22 des Korpus trainiert. Die Sektion
23 wurde als Developmentkorpus verwendet. Die Ergebinisse wurden gegen Sektion 24
evaluiert.
In der Tabelle 7.2 wird die Anzahl der Sätze einer bestimmter Länge im Korpus zusam-
mengefasst.
Satzlänge ≤40 all
Training 37417 39966
Test 1175 1275
Tab. 7.2: Anzahl der Sätze in Trainings- und Testkorpus hinsichtlich ihrer Länge
Die langen Dependenzen wurden vorverarbeitet. In der Abbildung 7.2 sind Korrespon-
denzbeziehungen zwischen den Baum und F-Struktur für den Satz the demon seems to
have gone dargestellt. Es gibt drei Einträge der F-Struktur f2: f2a, f2b und f2c. Jeder
Eintrag steht in Beziehung mit zwei Initial-Bäumen. Es wurden einige heuristischen
Regeln entwickelt, mit Hilfe von denen Doppeleinträge beim Training und beim Testen
vorverarbeitet werden (siehe Abbildung 7.4):
• Beim Training: Beim ersten Eintrag f2a wurden die Links mit dem Initial-Baum
beibehalten, der einen lexikalischen Element hat (demon). Die Links mit dem
Initial-Baum, der das Nullelement enthält, werden entfernt. Im zweiten Eintrag
f2b werden die Links mit dem Initial-Baum mit lexikalischem Element entfernt.
Es werden die Referenzen auf den Initial-Baum mit Nullelement beibehalten. Als
Wert von PRED-Attribut wird der String ’NULL’ gesetzt und alle untergeordneten
F-Strukturen werden entfernt. Der dritte Eintrag wird f2c entfernt.
• Beim Testen: Der erste Eintrag f2a bleibt unverändert. Im zweiten Eintrag f2b wird
der Wert von PRED-Attributs ’demon’ mit ’NULL’ ersetzt und alle untergeordneten
F-Strukturen werden entfernt. Der dritte Eintrag f2c wird entfernt.
Als Eingabe wurden die F-Strukturen der Sektion 24 verwendet. Diese automatisch
generierten F-Strukturen sind nicht ”perfekt”. Das bedeutet, dass sie keine Garantie
hinsichtlich ihrer Komplettheit und Kohärenz liefern (Kaplan und Bresnan, 1995): Die
43
50. 7 Experimente und Ergebnisse
Abb. 7.2: Penn-Treebank-Baum für den Satz The demon seems to have gone
F-Struktur kann einen ungewünschten Inhalt haben, dann ist sie nicht kohärent, und/oder
aber der vorausgesetzte Inhalt kann fehlen, dann ist sie nicht komplett.
In den F-Strukturen werden nur die Grundformen der Wörter kodiert. Die KSen setzen
aber volle (flektierte) Wortformen voraus. Auf die Entwicklung eines morphologischen
Generators wurde im Rahmen dieser Arbeit verzichtet. Die flektierten Wortformen wurden
aus den KSen des Goldstandards übernommen.
Punktuation zu bewältigen ist immer schwer. Es wurden einige Experimente mit Punktua-
tionszeichen durchgeführt. Die Punktuationszeichen erschienen an unerwünschten Stellen.
Das betrifft besonders die Kommata und Anführungszeichen. Das einzige, was relativ gut
lokalisiert wurde, sind die Endsatzzeichen: Punkt, Fragezeichen und Ausrufezeichen. Da
für die Bewältigung der Punktuation ein fortgeschrittenes Verfahren nötig ist, wurden
alle Punktuationzeichen aus dem Trainings- sowie auch aus dem Testkorpus entfernt.
44
51. 7 Experimente und Ergebnisse
7.3 Experimente
Im Kapitel 6 wurden zwei Schritte der Generierung von KSen aus DSen erläutert. Die
Effizienz des gesamten Vorgangs hängt von der Effizienz jedes einzelnen Schrittes ab.
Es wurde eine Reihe von Experimenten für jeden Schritt unabhängig von einander
durchgeführt. Die Modelle, die die besten Ergebnisse geliefert haben, wurden für die
Evaluierung des Gesamtsystems übernommen.
7.3.1 Ermittlung der Initial-Bäume für F-Strukturen
Spezifizierung von Modellen
Einer F-Struktur werden mehrere Initial-Bäume zugeordnet. Es kann immer entweder der
beste oder die n besten Bäume für weitere Verarbeitung übernommen werden. Die Wahr-
scheinlichkeiten der Initial-Bäume werden anhand des Modells P(iti|fsφ(iti)) berechnet.
Die Wahrscheinlichkeiten werden mit Hilfe von MLE auf dem Korpus trainiert (siehe
Formel 6.2). Eine F-Struktur ist eine komplexe Struktur, die über verschiedene Informa-
tionen verfügt: lexikalische, morphosyntaktische und die Information über grammatische
Funktionen.
Eine F-Struktur kann als Set – F-Set – der eigenen Eigenschaften dargestellt wer-
den. Die Eigenschaften werden als Attribut-Wert-Paare repräsentiert. Das Format für
Eigenschaften-Repräsentation ist wie folgt definiert:
1. Die Attribut-Wert-Paare [PRED lemma], [PRON_FORM lemma] und [COORD_FORM
lemma] werden zu [LEX lemma], da alle drei Attribute zum Speichern von Grund-
formen der Wörter dienen.
2. Die morphosyntaktische Information wie TENSE, NUM, PERS usw. wird zum
Attribut MORPH zusammengefasst. Das Set der Werte der morphosyntaktischen
Attribute wird als Wert des MORPH-Attributs gesetzt. Z.B. werden [NUM sg] und
[PERS 3] zu [MORPH numSG_pers3].
3. Jede grammatische Funktion führt in das Set ein Paar ein: das Attribut GFch
i und
der Namen der grammatischen Funktion als Wert dieses Attributs: [GFch
i gfch
i ],
wobei ch für ”child” steht und gfch
i der Name der grammatischen Funktion der
untergeordneten F-Struktur i ist. Die Anzahl von untergeordneten F-Strukturen
ist gleich dem maximalen i.
45
52. 7 Experimente und Ergebnisse
4. Die grammatische Funktion der F-Struktur selbst wird als [GFfs gffs] dargestellt,
wobei gffs der Name der grammatischen Funktion ist.
Zum Beispiel wird die F-Struktur f1 in der Abbildung 7.3 als folgendes Set dargestellt:
{[PRED seem], [MORPH tensePRES_numSG_pers3], [GFfs root], [GFch
1 subj], [GFch
2
xcomp]}.
Als Baseline wurde ein Modell definiert, welches als Parameter nur die grammatische
Funktion der F-Struktur annimmt:
Pbase
(it|fs) = P(it|gffs
) (7.1)
Dabei ist it ein Initial-Baum, der zu fs zugeordnet wurde.
Die Anzahl der untergeordneten Teil-F-Strukturen bei einer F-Struktur kann beliebig groß
sein4. Deswegen wurden drei Modelle definiert, die diese Information auf unterschiedliche
Weise berücksichtigen.
Im Modell (7.2) werden alle grammatischen Funktionen einfach als Set dargestellt, wie
sie in der F-Struktur vorkommen.5
Psimple
(it|fs) = P(it|gffs
, gfch
1 , ..., gfch
n ) (7.2)
Es gibt sehr viele Fälle, wenn ein F-Set die COORD-Funktion, ADJUNCT-Funktion
oder APP-Funktion mehrfach enthält. Es wurde ein Modell (7.3) definiert, in dem die
Mengen von COORD-, ADJUNCT- und APP-Funktionen auf die Anzahl 1 reduziert
worden sind. Das entspricht dem Prinzip im LFG-Formalismus: wenn eine F-Struktur
mehrere untergeordnete (Teil-)F-Strukturen mit der gleichen Funktion einbettet, werden
die eingebetten F-Strukturen als Set zusammengefasst. Das Set wird dann zum Wert des
Attributs, das diese Funktion repräsentiert (vgl. Kaplan und Bresnan, 1995:68).
PsingletonGF
(it|fs) = P(it|gffs
, gfch
1 , ..., gfch
n ) (7.3)
wobei die Mengen von COORD-, ADJUNCT- und APP-Funktionen auf die Anzahl 1
reduziert werden.
4
Im Korpus kommen F-Strukturen vor, die bis zu 26 untergeordnete F-Strukturen haben.
5
Die Reihenfolge der grammatischen Funktionen bzw. der F-Strukturen ist irrelevant, da die (Teil-)F-
Strukturen nicht linearisert sind. Von Bedeutung sind nur die Anzahl und die Typen der grammatischen
Funktionen.
46
53. 7 Experimente und Ergebnisse
Als drittes Modell wurde ein Modell definiert, dem die Idee zu Grunde liegt, die Wahr-
scheinlichkeit des Ganzen als Produkt der Wahrscheinlichkeiten von Teilen zu berechnen.
Diese Idee verfolgte Collins (1999) beim Parsing mit einer aus der Penn Treebank induzier-
ten PCFG-Grammatik, indem die Phrasenstrukturregeln in mehrere Abschnitte zerlegt
wurden und die Wahrscheinlichkeit der Regeln als Produkt der Wahrscheinlichkeiten von
Regelteilen berechnet wurde. Somit hat Collins das Sparse-Data-Problem beim Estimieren
der Regelwahrscheinlichkeiten vermieden. Auf ähnliche Weise kann eine F-Struktur als
Menge der Teilstrukturen dargestellt werden.
In der Abbildung 7.5 ist eine F-Struktur (a), die als zwei Teilstrukturen (b) erfasst werden
kann. Die Wahrscheinlichkeit eines Initial-Baums, bedingt durch die F-Struktur fs, wird
als Produkt der Wahrscheinlichkeiten des Initial-Baums, bedingt durch Teilstrukturen
von fs, berechnet. Formal sieht das Model wie folgt aus:
Pgeneral
(it|fs) =
n
i=1
P(it|gffs
, gfch
i ) (7.4)
Dabei ist n die Anzahl der Teilstrukturen.
Um das Sparse-Data-Problem zu vermeiden, werden die 3 Modelle mit dem Baseline-
Modell 7.1 interpoliert.
Psimple(it|fs) = λPsimple(it|fs) + (1 − λ)Pbase(it|fs)
PsingletonGF (it|fs) = λPsingletonGF (it|fs) + (1 − λ)Pbase(it|fs)
Pgeneral(it|fs) = λPgeneral(it|fs) + (1 − λ)Pbase(it|fs)
Die Modelle wurden evaluiert hinsichtlich
1. der Anzahl von Initial-Bäumen, die den F-Strukturen korrekt (exact match) zuge-
wiesen worden sind, und
2. der Korrektheit der Präterminalsymbole. Da Präterminale einen erheblichen Anteil
an Knoten im Baum darstellen, ist die Korrektheit von Präterminal-Labels (POS-
Tags) bei der Evaluierung der Bäume besonders relevant.
Die Ergebnisse der Ermittlung von Initial-Bäumen, wenn nur die grammatischen Funk-
tionen als Parameter fungieren, sind in der Tabelle 7.3 dargestellt. Die besten Ergebnisse
liefert das general-Modell.
Da F-Strukturen über lexikalische ([PRED lexem]) und morphosyntaktische (TENSE,
NUM, PERS, usw.) Information verfügen, können die auf grammatischen Funktionen
47
54. 7 Experimente und Ergebnisse
Modell Initial-Bäume POS λ-Werte
baseline 35.2 47.4 λ1=1
simple 45.4 58.7 λ1=0.6; λ2=0.4
singletonGF 45.0 58.5 λ1=0.6; λ2=0.4
general 47.1 59.8 λ1=0.6; λ2=0.4
Tab. 7.3: Ergebnisse der Ermittlung von Initial-Bäumen (durch grammatische Funktionen
parametrisiert)
basierten Modelle durch diese Information erweitert werden. Die Intuition basiert hier
darauf, dass Lexem und morphosyntaktische Information für die Bestimmung von POS
(und somit die Ermittlung der Initial-Bäume) relevant sind. Zum Beispiel ist das Lexem
call mit der Eigenschaft [TENSE past] höchstwahrscheinlich ein Verb, und das Lexem
call mit den Eigenschaften [NUM sg] und [PERS 3] und ohne TENSE-Egenschaft
höchstwahrscheinlich ein Nomen.
Das general-Modell, das die besten Ergebnisse geliefert hat, wird für weitere Experimente
übernommen und durch lexikalische und morphosyntaktische Information erweitert. Es
wurden drei Modelle definiert, wobei das Modell (7.7) die beiden Informationen als
Parameter annimmt.
Pl
(it|fs) =
n
i=1
P(it|gffs
, gfch
i , lexfs
) (7.5)
Pm
(it|fs) =
n
i=1
P(it|gffs
, gfch
i , morphfs
) (7.6)
Pml
(it|fs) =
n
i=1
P(it|gffs
, gfch
i , morphfs
, lexfs
) (7.7)
lexfs ist das Lemma der F-Struktur fs. morphfs ist die morphosyntaktische Information
(im F-Set ist sie als Wert des Attributs MORPH repräsentiert).
Um das Sparse-Data-Problem zu vermeiden, werden die 3 Modelle durch Backoff mit
Interpolation folgenderweise geglättet.
Pl
(it|fs) =
n
i=1
(λ1P(it|gffs
, gfch
i , lexfs
) + λ2P(it|gffs
, gfch
i ) + λ3P(it|gffs
))
48
55. 7 Experimente und Ergebnisse
Pm
(it|fs) =
n
i=1
(λ1P(it|gffs
, gfch
i , morphfs
) + λ2P(it|gffs
, gfch
i ) + λ3P(it|gffs
))
Pml
(it|fs) =
n
i=1
(λ1P(it|gffs
, gfch
i , morphfs
, lexfs
) + λ2P(it|gffs
, gfch
i , morphfs
) +
λ3P(it|gffs
, gfch
i ) + λ4P(it|gffs
))
wobei λi = 1 ist.
Die Ergebnisse der Ermittlung von Initial-Bäumen, wenn die morphosyntaktische und
lexikalische Information berücksichtigt wird, sind in der Tabelle 7.4 dargestellt.6
Modell Initial-Bäume POS λ-Werte
l 67.4 81.1 λ1=0.5; λ2=0.4; λ3=0.1
m 65.6 80.4 λ1=0.5; λ2=0.4; λ3=0.1
ml 77.8 92.2 λ1=0.4; λ2=0.3; λ3=0.2; λ4=0.1
Tab. 7.4: Ergebnisse der Ermittlung von Initial-Bäumen (parametrisiert durch grammati-
sche Funktionen, morphosyntaktische und lexikalische Information)
Ergebnisanalyse
Es wurden die ersten 20 Sätze aus den Ergebnissen analysiert. Es gab dabei vier Fehler-
typen:
• Projektion (Zeilen 1-3 in der Tabelle 7.5): Das sind die Fälle, bei denen eine
Kategorie auf eine ungewünschte phrasale Kategorie projeziert wird. Die meisten
Fehler betreffen die NP-Projektion. Zum Beispiel wird statt eines Initial-Baum (
NN word ) ein Initial-Baum ( NP ( NN word ) ) ermittelt und umgekehrt ( NP ( NN
word ) ) statt ( NN word ).
• Funktionale Tags (4-6): Es gab 20 Fehler bezüglich der funktionalen Tags:
– 3 mal wurde ein funtionaler Tag der syntaktischen Kategorie hinzugefügt,
wobei die Kategorie keinen funktionalen Tag brauchte: z.B. ( PP-TMP ( IN
over ) ) statt ( PP ( IN over) ).
– 13 mal wurde kein Tag eingesetzt, wo einer sein sollte: z.B. statt ( PP-LOC (
IN at ) ) ist ( PP ( IN at ) ).
6
Lambda-Werte wurden manuell stichprobenweise anhand des Development-Korpus ermittelt.
49
56. 7 Experimente und Ergebnisse
– 4 mal wurden die falschen funktionalen Tags eingesetzt: z.B. statt ( SBAR-ADV
( IN as ) ) ist ( SBAR-TMP ( IN as ) ).
• POS Tags (7): Falsche Wortklasse kam 20 mal vor. Die Fehler betreffen meis-
tens die Differenzierung zwischen NNP(Eigennamen) und NN(normales Nomen),
RBR(Adverb im Komparativ) und JJR(Adjektiv im Komparativ), RB(Adverb)
und IN(Präposition oder subordinierte Konjunktion).
• Null-Elemente (8): Oft kommt es vor, dass ein Nullelement im Initial-Baum fehlt:
z.B. statt eines Initial-Baums ( ADJP ( QP ( CD million ) )( -NONE- ) ) wird ein
Initial-Baum ( ADJP ( QP ( CD million ) ) ) ermittelt, wobei ( -NONE- ) fehlt.
• Andere Fälle weisen mehr als eins der oben erwähnten Fehler auf: z.B. es wird ein
überflüssiger Knoten in der Projektionskette eingesetzt und ein falscher POS-Tag
dem Präterminal zugewiesen:
Typ des Fehlers Anzahl der Fehler
1 Knoten in der Projektion überflüssig 7
2 Knoten fehlt in der Projektion 12
3 einer Knoten in der Projektion falsch 5
4 Funktionaler Tag überflüssig 3
5 Funktionaler Tag fehlt 13
6 Funktionaler Tag falsch 4
7 POS falsch 20
8 Nullelement fehlt 9
9 Anderes 14
Tab. 7.5: Fehler bei der Ermittlung der Initial-Bäume
7.3.2 Generierung von Konstituentenbäumen
Spezifizierung von Modellen
Die Generierung von Bäumen aus Initial-Bäumen hängt von der Qualität der Ermittlung
von Initial-Bäumen im ersten Schritt ab. Um die Generierung von Bäumen aus Initial-
Bäumen unabhängig von der Ermittlung der Initial-Bäume zu evaluieren, wurden die
Initial-Bäume aus dem Penn-Treebank-Teil des Testkorpus genommen.
Das Modell (6.1) im Kapitel 6 beschreibt, wie die Wahrscheinlichkeit eines Ableitungs-
baums als Produkt der Wahrscheinlichkeiten seiner Initial-Bäume und der Verbindungen
zwischen ihnen berechnet wird:
50
57. 7 Experimente und Ergebnisse
P(Tree|FS) ≈
n
i=1
(P(iti|fsφ(iti)) ∗
k
j=1
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))))
1 2
Der erste Teil der Formel gibt die Wahrscheinlichkeiten von Initial-Bäumen wieder. Die
Spezifizierung dieses Teils wurde im vorherigen Abschnitt 7.3.1 beschrieben. Der zweite
Teil – die Wahrscheinlichkeit der Verbindungen zwischen den Initial-Bäumen – wurde
schon in 6.1 teilweise spezifiziert:
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) = P anode, dir, LN, RN|relds(fsφ(iti), fsφ(itj))
Es wurden verschiedene Modelle getestet, die sich unterscheiden:
• durch welche Information die Auswahl von anode, dir, LN und RN parametrisiert
wird, und
• wie LN und RN spezifiziert werden.
Im weiteren wird die Wahrscheinlichkeit einer Verbindung statt P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))
als P(relcs) notiert.
Als Baseline wurde das Modell 7.8 definiert:
Pbase
(relcs) = P(anode, dir|it, child) (7.8)
wobei child ein Initial-Baum ist, der an dem Initial-Baum it angehängt ist. Das Modell
bedeutet nichts anderes, als dass die relative Reihenfolge von Nachbarbäumen (links und
rechts des Kindes) unspezifiziert ist und nicht berücksichtigt wird.
Für das Parametrisieren des Modells wurden verschiedene Informationen verwendet und
die vier folgenden Modelle wurden definiert:
Ptree
(relcs) = P(anode, dir, itln
, itrn
|it, child) (7.9)
wobei child der an den Initial-Baum it angehängte Baum ist. itln ist der Initial-Baum
(oder eine Ableitung davon) links vom child. itrn befindet sich dementsprechend rechts
vom child.
51
58. 7 Experimente und Ergebnisse
Proot
(relcs) = P(anode, dir, rootln
, rootrn
|it, rootch
) (7.10)
wobei rootln die syntaktische Kategorie der Wurzel von itln ist. rootrn und rootch sind
syntaktische Kategorien der Wurzeln von itrn und child.
Pgf
(relcs) = P(anode, dir, gfln
, gfrn
|it, gfch
) (7.11)
wobei gfln die grammatische Funktion der F-Struktur ist, mit der der linke Nachbar-
Initial-Baum itln in Abbildungsbeziehung steht. Kurz gesagt ist gfln = gf
fsφ(itln) . gfrn
ist entsprechend die grammatische Funktion der F-Struktur, mit der der rechte Nachbar-
Initial-Baum itrn in Abbildungsbeziehung steht. gfch ist die grammatische Funktion der
F-Struktur, auf die der Initial-Baum child abgebildet ist.
Plex
(relcs) = P(anode, dir, lexln
, lexrn
|it, lexch
) (7.12)
wobei lexln das Lemma der F-Struktur ist, mit der der linke Nachbar-Initial-Baum itln in
Abbildungsbeziehung steht. lexrn und lexch sind entsprechend die Lemmas von fsφ(itrn)
und fsφ(child).
Alle vier Modelle wurden mit Baseline-Model P(anode, dir|it, child) und seinem Backoff-
Modell P(anode, dir|it) durch lineare Interpolation gesmootht:
Pbase(relcs) = λP(anode, dir|it, child) + (1 − λ)P(anode, dir|it)
Ptree(relcs) = λ1P(anode, dir, itln, itrn|it, child)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it)
Proot(relcs) = λ1P(anode, dir, rootln, rootrn|it, rootch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it)
Pgf (relcs) = λ1P(anode, dir, gfln, gfrn|it, gfch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it)
Plex(relcs) = λ1P(anode, dir, lexln, lexrn|it, lexch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it)
Dann werden alle Modelle in einem Modell (7.13) durch Interpolierung zusammengefasst.
Das Backoff-Modell von Baseline-Modell ist für Smoothing eingeführt.
Pgf+lex+tree+root
(relcs) = λ1Pgf
+ λ2Plex
+ λ3Ptree
+ λ4Proot
+
λ5Pbase
+ λ6P(anode, dir|it) (7.13)
52
59. 7 Experimente und Ergebnisse
wobei λi = 1 ist.
Die Ergebnisse der Evaluierung sind in der Tabelle 7.6 zusammengefasst.DR und PR
sind Dominanz- und Präzedenzrelationen.
Sätze der Länge ≤40 Wörter alle Sätze
Modell DR/PR (F-Measure) LA DR/PR (F-Measure) LA λ − Werte
baseline 95.0/73.7 92.73 94.6/73.1 92.24 λ1=0.9; λ2=0.1
tree 95.0/79.4 93.03 94.5/78.7 92.50 λ1=0.6; λ2=0.3; λ3=0.1
root 95.4/80.6 93.56 95.0/79.9 93.03 λ1=0.6; λ2=0.3; λ3=0.1
gf 95.2/82.3 93.39 94.6/81.8 92.85 λ1=0.6; λ2=0.3; λ3=0.1
lex 94.9/76.7 92.94 94.5/76.1 92.41 λ1=0.6; λ2=0.3; λ3=0.1
gf+lex+tree+root 95.6/82.7 93.95 96.9/89.9 97.62 λ1=0.3; λ2=0.1995; λ3=0.1995;
λ4=0.3; λ5=0.99; λ6=0.01
Tab. 7.6: Ergebnisse der Generierung von Ableitungsbäumen
Ergebnisanalyse
Die Ergebnisse in der Tabelle 7.6 zeigen, dass die erzeugten KSen sich vom Goldstandard
besonders in den Präzedenzrelationen unterscheiden. Das kann dadurch erklärt werden,
dass mehrere Dominanzrelationen in den Initial-Bäumen impliziert sind.
Es wurden die ersten 20 KSen aus den Ergebnissen analysiert. Folgende Fehler bezüglich
der Dominanzrelationen wurden erfasst (Abbildung 7.6(a)-(c)):
• 8 mal falsches Anhängen von Adverbialphrasen (PP, ADVP, ADJP, NP-TMP
etc). Statt an die Verbalphrase anzuknüpfen wird eine Adverbialphrase an die
Satzkategorie (S) angehängt (Abbildung 7.6a: mit dem Pfeil wird die richtige Stelle
der Konstituente gezeigt).
• 2 mal falsche Auswahl des NP-Knoten als Verknüpfungsknoten (7.6b). Falls im
Mutter-Initial-Baum mehrere NP-Knoten vorhanden sind, wird nicht immer der
richtige NP-Knoten als Verknüpfungsknoten gewählt.
• 1 mal sonstige Fälle (7.6c).
Folgende Fehler bezüglich der Präzedenzrelationen wurden erfasst (Abbildung 7.6(d)-(g)):
• 8 mal falsche Reihenfolge von Konjunkten in einer Koordinationsphrase (7.6d).
• 12 mal falsche Reihenfolge von Adjunkten (7.6e).
• 1 mal falsche Position von einer Adverbphrase (7.6f).
• 3 mal sonstige Fälle falscher Reihenfolge von Konstituenten (7.6g).
53
60. 7 Experimente und Ergebnisse
7.3.3 Gesamtsystem
Nachdem die beiden Module des Systems getestet worden sind, wurden die Modelle, die
die besten Ergebnisse geliefert haben, für das Testen des Gesamtsystems übernommen.
Bei jedem Schritt – die Ermittlung von Initial-Bäumen und die Generierung von Ablei-
tungsbäumen – führt es zum Qualitätsverlust. Die Qualität des Gesamtsystems kann
man der Tabelle 7.7 entnehmen.
Sätze der Länge ≤40 Wörter alle Sätze
Modell DR/ PR (F-Measure) LA DR/ PR (F-Measure) LA
gf+lex+tree+root 77.4/68.6 88.79 77.4/68.4 88.63
Tab. 7.7: Ergebnisse des Gesamtsystems
Es gibt große Unterschiede zwischen diesen Ergebnissen und den Ergebnissen, wenn
korrekte Initial-Bäume für Konstruktion von gesamten Bäumen genommen wurden (vgl.
Tabellen 7.6 und 7.7). Daraus kann man schliessen, dass die Ermittlung von korrekten
Initial-Bäumen von großer Bedeutung ist.
Da das Verfahren aufwändig ist, wurde nur der beste Initial-Baum für jede F-Struktur
genommen. Wie im Kapitel 6.2 beschrieben wurde, läßt das System mehr als nur einen
Inital-Baum in die weitere Verarbeitung übernehmen. Im zweiten Schritt werden die
Wahrscheinlichkeiten von Initial-Bäumen beim Ranking von erzeugten Bäumen berück-
sichtigt. Somit können Initial-Bäume mit kleineren Wahrscheinlichkeiten im Ergebnis-
baum vorkommen, wenn die Verbindungen zwischen ihnen hohe Wahrscheinlichkeitswerte
aufweisen.
Es gibt sehr viele Fälle, wenn der erstbeste Initial-Baum falsch ist, aber der zweitbeste
Initial-Baum korrekt ist. Das bedeutet, dass der korrekte Initial-Baum im zweiten Schritt
bei der Erzeugung des gesamten Baums ausgewält werden kann. Im Abschnitt 7.3.1
wurden anhand der 20 Sätze (bzw. KSen) die Fehler bei der Ermittlung von Initial-
Bäumen für F-Strukturen beschrieben (siehe Tabelle 7.5). Es wurde immer der erstbeste
Baum mit Goldstandard vergliechen. 19 mal gab es Fehler in der NP-Projektion. In 16
Fällen davon hatte der zweitbeste Initial-Baum die korrekte Projektion. In der Tabelle
7.8 ist die Anzahl der Fälle dargestellt, wenn der zweitbeste Initial-Baum korrekt ist
(Spalte 2).
Es wurde ein Experiment auf einem kleinen Korpus7 (100 Sätze der Sektion 24) durchge-
7
Wegen dem hohen Zeitaufwand bei der Generierung, wenn mehrere Initial-Bäume einer F-Struktur
zugeordnet werden, war das Testen nur auf einem kleinen Korpus möglich.
54
61. 7 Experimente und Ergebnisse
der 1-beste Initial-Baum ist falsch der 2-beste Initial-Baum ist richtig Erfolg
falsche NP-Projektion 19 16 3
falscher POS-Tag 20 9 2
falscher funktionaler Tag 20 14 7
Tab. 7.8: Anzahl der Fälle, wann der zweitbeste Initial-Baum korrekt ist
nur der 1-beste Initial-Baum 2 beste Initial-Bäume
Modell DR/ PR (F-Measure) LA DR/ PR (F-Measure) LA
gf+lex+tree+root 71.1/63.0 85.59 74.7/66.8 87.25
Tab. 7.9: Ergebnisse des Systems, wobei 2 beste Initial-Bäume in weitere Verarbeitung
übernommen werden
führt, wobei zwei beste Initial-Bäume in die weitere Verarbeitung übernommen wurden.
Die Verbesserung der Akkuratheit von Bäumen kann man der Tabelle 7.9 entnehmen.
In der Spalte ”Erfolg” der Tabelle 7.8 kann man sehen, wieviel mal der zweitbeste
Initial-Baum im zweiten Schritt präferiert wurde.
7.3.4 Training auf den Trainingskorpora verschiedener Größe
Es wurde eine Reihe von Experimenten durchgeführt, um Abhängigkeit der Qualität der
KS-Generierung von der Größe des Trainingskorpus zu bestimmen. Der Traningskorpus
wurde auf kleinere Korpora geteilt. Es wurde das Modell 7.13 verwendet. Die Ergebnisse
kann man der Tabelle 7.10 bzw. der Abbildung 7.7 entnehmen. Wie man sieht, kann
man keine Verbesserungen in der Qualität ab dem Trainingskorpus von 5000 Sätzen
beobachten.
Anzahl der Sätze im Trainingskopus
100 200 300 500 1000 2000 3000 5000 10000 20000 39966(alle)
DR 62.5 65.5 67.7 69.7 72.6 73.3 74.0 74.8 75.9 77.0 77.4
PR 42.1 47.4 49.2 53.0 57.5 60.2 61.5 63.1 65.5 67.2 68.4
LA 77.77 80.09 81.06 83.49 85.25 86.18 86.58 87.11 87.69 88.20 88.62
Tab. 7.10: Training auf den Trainingskorpora verschiedener Größe
55
62. 7 Experimente und Ergebnisse
Abb. 7.3: F-Struktur für den Satz The demon seems to have gone
56
63. 7 Experimente und Ergebnisse
Abb. 7.4: F-Struktur für den Satz The demon seems to have gone nach der Verarbeitung
von Doppeleinträgen
57
64. 7 Experimente und Ergebnisse
Abb. 7.5: Verteilte Dependenzstruktur
Abb. 7.6: Falsche Ermittlung von Dominanz- und Präzedenzrelationen bei Konstruktion
einer KS aus Initial-Bäumen (Mit ’...’ ist korrekte Position markiert)
58
65. 7 Experimente und Ergebnisse
0
10
20
30
40
50
60
70
80
90
100
0 5000 10000 15000 20000 25000 30000 35000 40000 45000
DR PR LA
Abb. 7.7: Training auf den Trainingskorpora verschiedener Größe
59
66. 8 Zusammenfassung und Ausblick
Im Rahmen dieser Arbeit wurde ein statistisches Verfahren entwickelt, das aus DSen KSen
generiert. Wie auch in den anderen Ansätzen werden jedem DS-Segment ein KS-Segement
zugeordnet (Schritt 1), und danach wird eine gesamte KS erzeugt (Schritt 2). Die Auswahl
eines optimalen KS-Segments und der Aufbau der gesamten KS läuft probabilistisch ab:
bei jedem Schritt werden immer die höchstwahrscheinlichen Ausgaben für die weitere
Verarbeitung übernommen.
Anhand der Experimente wurde erfasst, dass die Auswahl eines korrekten KS-Segments
(bzw. Initial-Baums) für die Effizienz des Gesamtsystems von großer Bedeutung ist. Die
Ergebnisse der Ermittlung von KS-Segmenten im ersten Schritt sind in dieser Arbeit
weit von perfekt. Die Systemarchitektur lässt aber die n besten KS-Segmente (bzw.
Initial-Bäume) für die weitere Verarbeitung zu. Die Auswahl des optimalen KS-Segments
wird somit bei der Konstruktion der gesamten KS durchgeführt.
Das Ziel der Arbeit war ein statistisches Verfahren der Generierung von KSen aus
DSen als Alternative zu den bisherigen regelbasierten Systemen vorzuschlagen, welches
dabei an neue Annotationsschemata angepasst werden kann. Im Kapitel 4 wurde ein
generelles Modell für die Abbildung von DSen in KSen vorgestellt. In den Kapiteln 6 und
7 wurde dieses Modell hinsichtlich der vorhandenen Information aus dem Korpus weiter
spezifiziert. In 7.3.4 wurden die Experimente beschrieben, die gezeigt haben, dass man
beim Trainieren sogar auf kleinen Trainingskorpora gute Ergebnisse bekommen kann.
Die Ansätze von Xia und Palmer (2001) und Xia et al. (2009) setzen Linearisierung von
DS-Segmenten oder ihre POS-Annotation voraus. Im Gegensatz zu ihnen basiert das in
dieser Arbeit vorgestellte Verfahren nur auf grammatischen Funktionen und lexikalischer
sowie morphsyntaktischer Informationen, die als Parameter für probabilistische Modelle
dienen. Wenn F-Strukturen eine lineare Ordnung von (Teil-)F-Strukturen aufweisen
würden, könnte sich die lineare Ordnung von KS-Segmenten aus der linearen Ordnung
von DS-Segmenten ergeben. Dann beschränkte sich die Aufgabe bei der Erzeugung einer
KS aus KS-Segmenten auf die Ermittlung von Dominanzrelationen – der Auswahl des
Verknüpfungsknotens im KS-Segment.
60
67. 8 Zusammenfassung und Ausblick
Es kann eine Reihe von anderen Verbesserungen und Weiterentwicklungen vorgenommen
werden:
• In dieser Arbeit wurde die Auswahl der KS-Segmente nur durch die DS-Segmente
(bzw. F-Strukturen) bedingt, mit denen die KS-Segmente in einer Abbildungs-
relation stehen. Die Auswahl eines KS-Segments kann aber durch die anderen
schon ermittelten KS-Segmente bedingt sein. Wenn mehrere KS-Segmente jedem
DS-Segment in der DS zugewiesen werden, kann eine Viterbi-Suche durch DS
verwendet werden, um die besten KS-Segmente zu ermitteln.
• Im Fokus dieser Arbeit stand die Entwicklung von effizienten probabilistischen
Modellen, welche die Auswahl der optimalen Entscheidung durch Berechnung
der Wahrscheinlichkeiten von Ausgaben ermöglichen. Deswegen wurde auf die
Entwicklung eines effizienten Generierungsalgorithmus (KSen aus KS-Segmenten)
verzichtet. Der hier realisierte Generator hat eine hohe Komplexität. Bei einer großen
Anzahl von Tochterbäumen, die an einen Mutterbaum anzuhängen sind, ist eine
Generierung aller möglichen Ableitungen praktisch unmöglich. Es wurde deswegen
auf 10.000 Varianten je Ableitung beschränkt. Der Einsatz eines fortgeschrittenen
Generators kann den Hypothesenraum stark reduzieren, wodurch die Verarbeitung
effizienter sein könnte.
• Die F-Strukturen des gegebenen LFG-Korpus weisen eine Kodierung der langen
Dependenzen durch Doppeleinträge von (Teil-)F-Strukturen auf. Das ermöglicht die
Ermittlung der Koindizierung von Nullelementen mit lexikalischen Elementen in
den Penn-Treebank-Bäumen. Dieses Verfahren kann leicht implementiert werden.
61