ml-nc-Kap2.ppt

Maschinelles Lernen
und Neural Computation
28
Kapitel 2: Klassifikation

Maschinelles Lernen
29
1
x
C1
C2
‘nein’ ‘ja’
Ein einfacher Fall
• Ein Feature,
Histogramme für beide
Klassen
(z.B. Glukosewert,
Diabetes ja/nein)
• Keine perfekte
Trennung möglich
• Entscheidung:
Schwellwert
• Frage: Wo setze ich ihn
am besten hin?

Maschinelles Lernen
30
Der allgemeine Fall: Bayes‘sches Theorem
• Ann: Daten fallen in k Klassen,
• wähle für eine Beobachtung xj die Wahrscheinlichste aus
     
 
j
i
i
j
j
i
p
c
P
c
p
c
P
x
x
x
|
| 
Wahrscheinlichkeit für Beobachtung,
wenn in Klasse i
(„likelihood“, „class-conditional“)
Wahrscheinlichkeit für Klasse i
vor der Beobachtung („a priori“)
Wahrscheinlichkeit, dass Beobachtung
Zur Klasse i gehört
(„a posteriori“)
Wahrscheinlichkeit für das Auftreten
der Beobachtung
     



k
i
i
i
j
j
c
P
c
p
p
1
|
x
x
Nenner ist Summe aller möglichen Zähler (aller Fälle)

Maschinelles Lernen
31
Der optimale Klassifikator
• Klassifikation: wähle die Klasse i mit der höchsten
a-posteriori Wahrscheinlichkeit
• Erzielt das bestmögliche Resultat
• Bayes‘sche Formel erleichtert das Problem, da
Wahrscheinlichkeiten auf der rechten Seite meist
leichter zu bestimmen sind
• Da p(x) für alle Klassen gleich ist, kann es oft
weggelassen werden

Maschinelles Lernen
32
Einschub: Wahrscheinlichkeitsdichten
• Für diskrete Variablen (endliche Werte): Wahrscheinlichkeit,
z.B.: P(ci)
• Für kontinuierliche Variablen nicht möglich: P(xj)=0
• Stattdessen: Wahrscheinlichkeitsdichtefunktion p(x)
p(xj) ... Dichte an diesem Punkt (kann größer als 1 sein)
• Wahrscheinlichkeit, dass x in einem kleinen Intervall liegt
• Dichte kann wie Wahrscheinlichkeit behandelt werden
  1





x
x d
p
   
j
P
d
p
j
j
x
x
x
x
x
x
x
x








Maschinelles Lernen
33
Beispiel: 1 Variable, 2 Klassen
• Annahme: in beiden
Klassen sind
Beobachtungen
normalverteilt
Verteilung der Werte für Klasse 1
(„class-conditional“)
für Klasse 2
Entscheidungsgrenze
• Entscheidungsgrenze:
Schnittpunkt der beiden
Kurven
• Multiplikation mit a-priori
Wahrscheinlichkeiten:
Entscheidungsgrenze
verschiebt sich
• Durchdividieren durch
Summe ergibt
Wahrscheinlichkeit für
Klasse

Maschinelles Lernen
34
Beispiel: 2 Variablen, 2 Klassen
• 2-dim. Gaussverteilungen
• Lineare Entscheidungsgrenze

Maschinelles Lernen
35
Klassifikatoren
• Problem: Dichteverteilungen meist unbekannt
• Lösung:
– Schätzen der Verteilungen
– Schätzen der Entscheidungsgrenze
– Schätzen von Diskriminanzfunktionen:
Wähle für jede Klasse Fkt. gi(x)
Klasse ci, wenn gi(x)>gj(x) für alle ji
z.B.:
     
   
   
 
i
i
i
i
i
i
c
P
c
p
g
c
P
c
p
g
log
|
log
|



x
x
x
x
Keine
Wahrscheinlichkeiten
mehr

Maschinelles Lernen
36
Diskriminanzfunktionen für Normalverteilungen
• Streuung in alle Richtungen gleich („sphärisch“):
• Log-Fkt. Und multiplikative Faktoren ändern nichts an
Größenverhältnis:
• Quadratische Funktion
• Entscheidungsgrenze: g1(x)=g2(x), auch quadratisch
wenn 1= 2: linear
   
i
i
i
i
i c
P
g







 

 2
2
2
exp
2
1



μ
x
x
   
 
i
i
i
i c
P
g log
2 2
2




μ
x
x

Maschinelles Lernen
37
Visualisierung: Normalverteilungen

Maschinelles Lernen
38
Allgemeiner Ansatz: Diskriminanzanalyse
• Lineare Diskriminanzfunktion:
entspricht dem Perceptron mit 1 Output Unit pro Klasse
• Quadratisch linear:
entspricht einer „Vorverarbeitung“ der Daten,
Parameter (w,v) noch immer linear
  



n
i
i
i w
x
w
g
1
0
x
   
  



n
i
p
i
p
j
j
i
ij
i
i w
x
x
v
x
w
g
1
0
1 1
x

Maschinelles Lernen
39
Der Schritt zum neuronalen Netz
• Allgemein linear:
beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung
• Neuronales Netz:
NN implementiert adaptive Vorverarbeitung
nichtlinear in Parametern (w)
    0
1
w
y
w
g
p
i
i
i
i 
 

x
x
   
    Gauss
...
Sigmoide
...
f
f
y
f
f
y
i
i
i
i
x
w
x
x
w
x T


 MLP
RBFN

Maschinelles Lernen
40
Beispiel: XOR
• (0 0)  0
(1 0)  1
(0 1)  1
(1 1)  0
•  Exklusives Oder
• 4. Muster ist Summe des
2. und 3. (lineare
Abhängigkeit)
• Punkte lassen sich durch
keine Gerade trennen

Maschinelles Lernen
41
0
0 0
0 0
0 0
Hidden Units
• Zwei Perceptrons + nichtlineare Transferfunktion:
1
1 0
1 -1
1 0
1
0 1
-1 1
0 1
0
0 0
0 0
1 1
• Schwellwertfunktion bricht lineare Abhängigkeit

Maschinelles Lernen
42
Beliebige Klassifikationen
• Jede Hidden
Unit teilt
Raum in 2
Hälften
• Output Units
wirken wie
“AND”
• Sigmoide:
verlaufende
Bereiche

Maschinelles Lernen
43
Beispiel: MLP
• MLP mit 5 Hidden und 2
Output Units
• Lineare Transferfunktion
am Output
• Quadratischer Fehler

Maschinelles Lernen
44
MLP zur Diskriminanzanalyse
• MLP (und RBFN) ist direkte Erweiterung
klassischer Modelle
• Stärke: beliebige nichtlineare
Diskriminanzfunktionen
• Hidden Units: Adaptive Vorverarbeitung des
Inputs
• Form der Diskriminanzfunktion außerhalb der
Entscheidungsgrenze belanglos
• Perceptron ist identisch mit linearer
Diskriminanzanalyse

Maschinelles Lernen
45
Alternativer Ansatz: Schätzung der Verteilungen
• Beim Ansatz mittels Diskriminanzfunktionen geht
ein wesentlicher Aspekt verloren:
Wahrscheinlichkeiten der Klassenzugehörigkeit
•  mehr an Bayes halten, Dichtefunktion schätzen
(vor allem p(x|ci))
• Parametrisch: Form ist bekannt, weniger
Parameter zu schätzen
• Nichtparametrisch: Form ist unbekannt,
theoretisch beliebig

Maschinelles Lernen
46
Parametrisch: Maximum Likelihood (ML)
• Ann.: Verteilung hat eine bestimmte, analytisch
beschreibbare Form (z.B. Normalverteilung) mit
Parametern  (z.B. Zentrum und Weite)
• Likelihood:
• Entspricht der „Wahrscheinlichkeit“, dass Daten
beobachtet werden, wenn die Verteilung richtig ist
• ML: Finde jenes , das die Beobachtungen am
wahrscheinlichsten macht: Maximiere L()
• Vor: Beobachtungen (Daten) sind unabhängig voneinander
   





n
i
i
p
p
L
1
| θ
x
θ
|
Menge aller Datenpunkte

Maschinelles Lernen
47
Beispiel: eindimensionale Normalverteilung
• Vereinfachung (ähnlich wie zuvor):
logarithmieren, Vorzeichen ändern, Konstante weglassen, minimieren
minimiere die negative log-Likelihood
       

 








 




n
i
i
n
i
i x
x
p
L
L
1
2
2
1 2
exp
2
1
,
|
,








θ
   









 



n
i
i
x
L
1
2
2
2
log
log



• Minimierung: 1. Ableitung auf 0 setzen
 

 




n
i
i
n
i
i
x
n
x
n 1
2
2
1
ˆ
1
ˆ
1
ˆ 


Erwartetes Ergebnis:
Mittelwert und Varianz

Maschinelles Lernen
48
Likelihood-Funktionen für die Normalverteilung
• L() für Punkte 1, 2 und 3, =1 • L() für Punkte 1, 2 und 3,  =1
(wieder Gauss-Fkt.)
• L() für
einen
Punkt 1,
 =1:
 ML nicht immer
sinnvoll!

Maschinelles Lernen
49
Nichtparametrisch: Parzen-Windows
• Wenn Form beliebig, keine Likelihood angebbar
• Wähle einen kleinen (Hyper-)Würfel, zähle
wieviel Punkte drin liegen (ki)
Geschätzte Dichte:  
i
i
i
V
n
k
x
p 
• Wenn n, Vi0,
dann immer genauer
• Entspricht einem
normalisierten
Histogramm
Volumen

Maschinelles Lernen
50
Der Fluch der Dimensionalität
• (Bellman 1961):
bei nichtparametrischen Fällen steigt die Anzahl
der benötigten Beispiele exponentiell mit der
Dimensionalität des Input!
• Parzen:
– wenn Fenster klein, muss es noch genügend Beispiele
enthalten
– je mehr Dimensionen, desto dünner gesät
•  möglichst wenige Inputs, viele Daten

Maschinelles Lernen
51
Semiparametrisch: Gaussian Mixtures (GMM)
• Nähere beliebige Verteilung
durch eine Mischung von
Normalverteilungen an
• Gleiches Prinzip wie bei
neuronalen Netzen
• Maximum Likelihood:
   









 


k
i i
i
i
i
l
x
c
x
p
1
2
2
2
exp
2
|





   



n
j
i
n
c
x
p
L
1
,
| σ
μ,
π,
σ
μ,
π,  -logL, Gradientenverfahren

Maschinelles Lernen
52
Beispiel
• Class-
conditionals:
• Posterior:
(90 gedreht)
• Entscheidungsgrenze:

Maschinelles Lernen
53
MLP zur Klassifikation
• Beweis existiert:
MLP nähert die a-posteriori
Wahrscheinlichkeit an
• Aktivierungsfunktion: Softmax
(eigene Fehlerfunktion
notwendig; siehe später)
• A-priori Wahrscheinlichkeiten:
Verteilungen im Trainingsset
 
 


 k
i
i
j
j
x
x
y
1
exp
exp

Maschinelles Lernen
54
Die Softmax-Funktion
• Erzwingt, dass Outputs als Wahrscheinlichkeiten interpretierbar sind
• Bezug zum Bayes’schen Theorem
• Spezialfall: Sigmoide Funktion
nur 2 Klassen, 1 Output Unit: durchdividieren
 
 
1
,
1
0
exp
exp
1
out
out
1
out
out
out




 
 

k
j
j
j
k
i
j
j
j x
x
y
y
x
     
   


 k
i
i
i
i
i
i
c
P
c
p
c
P
c
p
c
P
1
in
in
in
|
|
|
x
x
x
Wenn Expontentialverteilung
 Softmax
Nettoinput ist log. von Dichte
out
1
1
out
j
y
j
e
x 



Maschinelles Lernen
55
Warum Wahrscheinlichkeiten?
• Mehr Information
• Ablehnung von unsicheren Fällen: Performanz
steigt, aber einige Fälle unentscheidbar
• Einfache Berücksichtigung von anderen a-priori
Wahrscheinlichkeiten
• Berücksichtigung von Kosten für Fehler
• Verknüpfung mit anderen Quellen

Maschinelles Lernen
56
NN als semiparametrische Methoden
• Semiparametrisch:
Form relative beliebig, aber dennoch durch
Anzahl der Hidden Units („Modellkomplexität“)
beschränkt
• Fluch der Dimension abgeschwächt, aber immer
noch gegeben: Bedarf steigt ungefähr quadratisch
•  NN haben gute Eigenschaften, wenn Dichten
unbekannt, aber immer noch gilt:
wenige Inputs, viele Daten!

Maschinelles Lernen
57
Nachtrag: k-nearest neighbor
• Speichere alle Trainingssätze mit zugehöriger Klasse
• Neuer Fall: wähle die k nähesten Trainingsfälle, nimm Klasse, die am
häufigsten vorkommt
• Duda & Hart 1974:
Nearest Neighbor (k=1) hat maximal den doppelten Fehler des
bayesoptimalen Klassifizierers (für große Fallzahl)
•  kann als Benchmark verwendet werden
• Approximiert auch die a-priori Wahrscheinlichkeit direkt
• nichtparametrisch
k=4:
3 Klasse 2
1 Klasse 1
 Klasse 2
(posterior ¾)

Maschinelles Lernen
58
Zusammenfassung
• NN sind semiparametrische Methoden zur
Klassifikation
• Lt. Bayes sind Wahrscheinlichkeiten angebbar,
bringt mehr Information
• Es existieren gleichmächtige Alternativen (z.B.
GMM)
• Nearest Neighbor als Benchmark

ml-nc-Kap2.ppt

Recommandé

Recommandé

Contenu connexe

Plus de بشير امين حيدر

Plus de بشير امين حيدر (12)

ml-nc-Kap2.ppt