2. Maschinelles Lernen
und Neural Computation
29
1
x
C1
C2
‘nein’ ‘ja’
Ein einfacher Fall
• Ein Feature,
Histogramme für beide
Klassen
(z.B. Glukosewert,
Diabetes ja/nein)
• Keine perfekte
Trennung möglich
• Entscheidung:
Schwellwert
• Frage: Wo setze ich ihn
am besten hin?
3. Maschinelles Lernen
und Neural Computation
30
Der allgemeine Fall: Bayes‘sches Theorem
• Ann: Daten fallen in k Klassen,
• wähle für eine Beobachtung xj die Wahrscheinlichste aus
j
i
i
j
j
i
p
c
P
c
p
c
P
x
x
x
|
|
Wahrscheinlichkeit für Beobachtung,
wenn in Klasse i
(„likelihood“, „class-conditional“)
Wahrscheinlichkeit für Klasse i
vor der Beobachtung („a priori“)
Wahrscheinlichkeit, dass Beobachtung
Zur Klasse i gehört
(„a posteriori“)
Wahrscheinlichkeit für das Auftreten
der Beobachtung
k
i
i
i
j
j
c
P
c
p
p
1
|
x
x
Nenner ist Summe aller möglichen Zähler (aller Fälle)
4. Maschinelles Lernen
und Neural Computation
31
Der optimale Klassifikator
• Klassifikation: wähle die Klasse i mit der höchsten
a-posteriori Wahrscheinlichkeit
• Erzielt das bestmögliche Resultat
• Bayes‘sche Formel erleichtert das Problem, da
Wahrscheinlichkeiten auf der rechten Seite meist
leichter zu bestimmen sind
• Da p(x) für alle Klassen gleich ist, kann es oft
weggelassen werden
5. Maschinelles Lernen
und Neural Computation
32
Einschub: Wahrscheinlichkeitsdichten
• Für diskrete Variablen (endliche Werte): Wahrscheinlichkeit,
z.B.: P(ci)
• Für kontinuierliche Variablen nicht möglich: P(xj)=0
• Stattdessen: Wahrscheinlichkeitsdichtefunktion p(x)
p(xj) ... Dichte an diesem Punkt (kann größer als 1 sein)
• Wahrscheinlichkeit, dass x in einem kleinen Intervall liegt
• Dichte kann wie Wahrscheinlichkeit behandelt werden
1
x
x d
p
j
P
d
p
j
j
x
x
x
x
x
x
x
x
6. Maschinelles Lernen
und Neural Computation
33
Beispiel: 1 Variable, 2 Klassen
• Annahme: in beiden
Klassen sind
Beobachtungen
normalverteilt
Verteilung der Werte für Klasse 1
(„class-conditional“)
für Klasse 2
Entscheidungsgrenze
• Entscheidungsgrenze:
Schnittpunkt der beiden
Kurven
• Multiplikation mit a-priori
Wahrscheinlichkeiten:
Entscheidungsgrenze
verschiebt sich
• Durchdividieren durch
Summe ergibt
Wahrscheinlichkeit für
Klasse
8. Maschinelles Lernen
und Neural Computation
35
Klassifikatoren
• Problem: Dichteverteilungen meist unbekannt
• Lösung:
– Schätzen der Verteilungen
– Schätzen der Entscheidungsgrenze
– Schätzen von Diskriminanzfunktionen:
Wähle für jede Klasse Fkt. gi(x)
Klasse ci, wenn gi(x)>gj(x) für alle ji
z.B.:
i
i
i
i
i
i
c
P
c
p
g
c
P
c
p
g
log
|
log
|
x
x
x
x
Keine
Wahrscheinlichkeiten
mehr
9. Maschinelles Lernen
und Neural Computation
36
Diskriminanzfunktionen für Normalverteilungen
• Streuung in alle Richtungen gleich („sphärisch“):
• Log-Fkt. Und multiplikative Faktoren ändern nichts an
Größenverhältnis:
• Quadratische Funktion
• Entscheidungsgrenze: g1(x)=g2(x), auch quadratisch
wenn 1= 2: linear
i
i
i
i
i c
P
g
2
2
2
exp
2
1
μ
x
x
i
i
i
i c
P
g log
2 2
2
μ
x
x
11. Maschinelles Lernen
und Neural Computation
38
Allgemeiner Ansatz: Diskriminanzanalyse
• Lineare Diskriminanzfunktion:
entspricht dem Perceptron mit 1 Output Unit pro Klasse
• Quadratisch linear:
entspricht einer „Vorverarbeitung“ der Daten,
Parameter (w,v) noch immer linear
n
i
i
i w
x
w
g
1
0
x
n
i
p
i
p
j
j
i
ij
i
i w
x
x
v
x
w
g
1
0
1 1
x
12. Maschinelles Lernen
und Neural Computation
39
Der Schritt zum neuronalen Netz
• Allgemein linear:
beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung
• Neuronales Netz:
NN implementiert adaptive Vorverarbeitung
nichtlinear in Parametern (w)
0
1
w
y
w
g
p
i
i
i
i
x
x
Gauss
...
Sigmoide
...
f
f
y
f
f
y
i
i
i
i
x
w
x
x
w
x T
MLP
RBFN
13. Maschinelles Lernen
und Neural Computation
40
Beispiel: XOR
• (0 0) 0
(1 0) 1
(0 1) 1
(1 1) 0
• Exklusives Oder
• 4. Muster ist Summe des
2. und 3. (lineare
Abhängigkeit)
• Punkte lassen sich durch
keine Gerade trennen
15. Maschinelles Lernen
und Neural Computation
42
Beliebige Klassifikationen
• Jede Hidden
Unit teilt
Raum in 2
Hälften
• Output Units
wirken wie
“AND”
• Sigmoide:
verlaufende
Bereiche
16. Maschinelles Lernen
und Neural Computation
43
Beispiel: MLP
• MLP mit 5 Hidden und 2
Output Units
• Lineare Transferfunktion
am Output
• Quadratischer Fehler
17. Maschinelles Lernen
und Neural Computation
44
MLP zur Diskriminanzanalyse
• MLP (und RBFN) ist direkte Erweiterung
klassischer Modelle
• Stärke: beliebige nichtlineare
Diskriminanzfunktionen
• Hidden Units: Adaptive Vorverarbeitung des
Inputs
• Form der Diskriminanzfunktion außerhalb der
Entscheidungsgrenze belanglos
• Perceptron ist identisch mit linearer
Diskriminanzanalyse
18. Maschinelles Lernen
und Neural Computation
45
Alternativer Ansatz: Schätzung der Verteilungen
• Beim Ansatz mittels Diskriminanzfunktionen geht
ein wesentlicher Aspekt verloren:
Wahrscheinlichkeiten der Klassenzugehörigkeit
• mehr an Bayes halten, Dichtefunktion schätzen
(vor allem p(x|ci))
• Parametrisch: Form ist bekannt, weniger
Parameter zu schätzen
• Nichtparametrisch: Form ist unbekannt,
theoretisch beliebig
19. Maschinelles Lernen
und Neural Computation
46
Parametrisch: Maximum Likelihood (ML)
• Ann.: Verteilung hat eine bestimmte, analytisch
beschreibbare Form (z.B. Normalverteilung) mit
Parametern (z.B. Zentrum und Weite)
• Likelihood:
• Entspricht der „Wahrscheinlichkeit“, dass Daten
beobachtet werden, wenn die Verteilung richtig ist
• ML: Finde jenes , das die Beobachtungen am
wahrscheinlichsten macht: Maximiere L()
• Vor: Beobachtungen (Daten) sind unabhängig voneinander
n
i
i
p
p
L
1
| θ
x
θ
|
Menge aller Datenpunkte
20. Maschinelles Lernen
und Neural Computation
47
Beispiel: eindimensionale Normalverteilung
• Vereinfachung (ähnlich wie zuvor):
logarithmieren, Vorzeichen ändern, Konstante weglassen, minimieren
minimiere die negative log-Likelihood
n
i
i
n
i
i x
x
p
L
L
1
2
2
1 2
exp
2
1
,
|
,
θ
n
i
i
x
L
1
2
2
2
log
log
• Minimierung: 1. Ableitung auf 0 setzen
n
i
i
n
i
i
x
n
x
n 1
2
2
1
ˆ
1
ˆ
1
ˆ
Erwartetes Ergebnis:
Mittelwert und Varianz
21. Maschinelles Lernen
und Neural Computation
48
Likelihood-Funktionen für die Normalverteilung
• L() für Punkte 1, 2 und 3, =1 • L() für Punkte 1, 2 und 3, =1
(wieder Gauss-Fkt.)
• L() für
einen
Punkt 1,
=1:
ML nicht immer
sinnvoll!
22. Maschinelles Lernen
und Neural Computation
49
Nichtparametrisch: Parzen-Windows
• Wenn Form beliebig, keine Likelihood angebbar
• Wähle einen kleinen (Hyper-)Würfel, zähle
wieviel Punkte drin liegen (ki)
Geschätzte Dichte:
i
i
i
V
n
k
x
p
• Wenn n, Vi0,
dann immer genauer
• Entspricht einem
normalisierten
Histogramm
Volumen
23. Maschinelles Lernen
und Neural Computation
50
Der Fluch der Dimensionalität
• (Bellman 1961):
bei nichtparametrischen Fällen steigt die Anzahl
der benötigten Beispiele exponentiell mit der
Dimensionalität des Input!
• Parzen:
– wenn Fenster klein, muss es noch genügend Beispiele
enthalten
– je mehr Dimensionen, desto dünner gesät
• möglichst wenige Inputs, viele Daten
24. Maschinelles Lernen
und Neural Computation
51
Semiparametrisch: Gaussian Mixtures (GMM)
• Nähere beliebige Verteilung
durch eine Mischung von
Normalverteilungen an
• Gleiches Prinzip wie bei
neuronalen Netzen
• Maximum Likelihood:
k
i i
i
i
i
l
x
c
x
p
1
2
2
2
exp
2
|
n
j
i
n
c
x
p
L
1
,
| σ
μ,
π,
σ
μ,
π, -logL, Gradientenverfahren
25. Maschinelles Lernen
und Neural Computation
52
Beispiel
• Class-
conditionals:
• Posterior:
(90 gedreht)
• Entscheidungsgrenze:
26. Maschinelles Lernen
und Neural Computation
53
MLP zur Klassifikation
• Beweis existiert:
MLP nähert die a-posteriori
Wahrscheinlichkeit an
• Aktivierungsfunktion: Softmax
(eigene Fehlerfunktion
notwendig; siehe später)
• A-priori Wahrscheinlichkeiten:
Verteilungen im Trainingsset
k
i
i
j
j
x
x
y
1
exp
exp
27. Maschinelles Lernen
und Neural Computation
54
Die Softmax-Funktion
• Erzwingt, dass Outputs als Wahrscheinlichkeiten interpretierbar sind
• Bezug zum Bayes’schen Theorem
• Spezialfall: Sigmoide Funktion
nur 2 Klassen, 1 Output Unit: durchdividieren
1
,
1
0
exp
exp
1
out
out
1
out
out
out
k
j
j
j
k
i
j
j
j x
x
y
y
x
k
i
i
i
i
i
i
c
P
c
p
c
P
c
p
c
P
1
in
in
in
|
|
|
x
x
x
Wenn Expontentialverteilung
Softmax
Nettoinput ist log. von Dichte
out
1
1
out
j
y
j
e
x
28. Maschinelles Lernen
und Neural Computation
55
Warum Wahrscheinlichkeiten?
• Mehr Information
• Ablehnung von unsicheren Fällen: Performanz
steigt, aber einige Fälle unentscheidbar
• Einfache Berücksichtigung von anderen a-priori
Wahrscheinlichkeiten
• Berücksichtigung von Kosten für Fehler
• Verknüpfung mit anderen Quellen
29. Maschinelles Lernen
und Neural Computation
56
NN als semiparametrische Methoden
• Semiparametrisch:
Form relative beliebig, aber dennoch durch
Anzahl der Hidden Units („Modellkomplexität“)
beschränkt
• Fluch der Dimension abgeschwächt, aber immer
noch gegeben: Bedarf steigt ungefähr quadratisch
• NN haben gute Eigenschaften, wenn Dichten
unbekannt, aber immer noch gilt:
wenige Inputs, viele Daten!
30. Maschinelles Lernen
und Neural Computation
57
Nachtrag: k-nearest neighbor
• Speichere alle Trainingssätze mit zugehöriger Klasse
• Neuer Fall: wähle die k nähesten Trainingsfälle, nimm Klasse, die am
häufigsten vorkommt
• Duda & Hart 1974:
Nearest Neighbor (k=1) hat maximal den doppelten Fehler des
bayesoptimalen Klassifizierers (für große Fallzahl)
• kann als Benchmark verwendet werden
• Approximiert auch die a-priori Wahrscheinlichkeit direkt
• nichtparametrisch
k=4:
3 Klasse 2
1 Klasse 1
Klasse 2
(posterior ¾)
31. Maschinelles Lernen
und Neural Computation
58
Zusammenfassung
• NN sind semiparametrische Methoden zur
Klassifikation
• Lt. Bayes sind Wahrscheinlichkeiten angebbar,
bringt mehr Information
• Es existieren gleichmächtige Alternativen (z.B.
GMM)
• Nearest Neighbor als Benchmark