SlideShare une entreprise Scribd logo
1  sur  31
Maschinelles Lernen
und Neural Computation
28
Kapitel 2: Klassifikation
Maschinelles Lernen
und Neural Computation
29
1
x
C1
C2
‘nein’ ‘ja’
Ein einfacher Fall
• Ein Feature,
Histogramme für beide
Klassen
(z.B. Glukosewert,
Diabetes ja/nein)
• Keine perfekte
Trennung möglich
• Entscheidung:
Schwellwert
• Frage: Wo setze ich ihn
am besten hin?
Maschinelles Lernen
und Neural Computation
30
Der allgemeine Fall: Bayes‘sches Theorem
• Ann: Daten fallen in k Klassen,
• wähle für eine Beobachtung xj die Wahrscheinlichste aus
     
 
j
i
i
j
j
i
p
c
P
c
p
c
P
x
x
x
|
| 
Wahrscheinlichkeit für Beobachtung,
wenn in Klasse i
(„likelihood“, „class-conditional“)
Wahrscheinlichkeit für Klasse i
vor der Beobachtung („a priori“)
Wahrscheinlichkeit, dass Beobachtung
Zur Klasse i gehört
(„a posteriori“)
Wahrscheinlichkeit für das Auftreten
der Beobachtung
     



k
i
i
i
j
j
c
P
c
p
p
1
|
x
x
Nenner ist Summe aller möglichen Zähler (aller Fälle)
Maschinelles Lernen
und Neural Computation
31
Der optimale Klassifikator
• Klassifikation: wähle die Klasse i mit der höchsten
a-posteriori Wahrscheinlichkeit
• Erzielt das bestmögliche Resultat
• Bayes‘sche Formel erleichtert das Problem, da
Wahrscheinlichkeiten auf der rechten Seite meist
leichter zu bestimmen sind
• Da p(x) für alle Klassen gleich ist, kann es oft
weggelassen werden
Maschinelles Lernen
und Neural Computation
32
Einschub: Wahrscheinlichkeitsdichten
• Für diskrete Variablen (endliche Werte): Wahrscheinlichkeit,
z.B.: P(ci)
• Für kontinuierliche Variablen nicht möglich: P(xj)=0
• Stattdessen: Wahrscheinlichkeitsdichtefunktion p(x)
p(xj) ... Dichte an diesem Punkt (kann größer als 1 sein)
• Wahrscheinlichkeit, dass x in einem kleinen Intervall liegt
• Dichte kann wie Wahrscheinlichkeit behandelt werden
  1





x
x d
p
   
j
P
d
p
j
j
x
x
x
x
x
x
x
x







Maschinelles Lernen
und Neural Computation
33
Beispiel: 1 Variable, 2 Klassen
• Annahme: in beiden
Klassen sind
Beobachtungen
normalverteilt
Verteilung der Werte für Klasse 1
(„class-conditional“)
für Klasse 2
Entscheidungsgrenze
• Entscheidungsgrenze:
Schnittpunkt der beiden
Kurven
• Multiplikation mit a-priori
Wahrscheinlichkeiten:
Entscheidungsgrenze
verschiebt sich
• Durchdividieren durch
Summe ergibt
Wahrscheinlichkeit für
Klasse
Maschinelles Lernen
und Neural Computation
34
Beispiel: 2 Variablen, 2 Klassen
• 2-dim. Gaussverteilungen
• Lineare Entscheidungsgrenze
Maschinelles Lernen
und Neural Computation
35
Klassifikatoren
• Problem: Dichteverteilungen meist unbekannt
• Lösung:
– Schätzen der Verteilungen
– Schätzen der Entscheidungsgrenze
– Schätzen von Diskriminanzfunktionen:
Wähle für jede Klasse Fkt. gi(x)
Klasse ci, wenn gi(x)>gj(x) für alle ji
z.B.:
     
   
   
 
i
i
i
i
i
i
c
P
c
p
g
c
P
c
p
g
log
|
log
|



x
x
x
x
Keine
Wahrscheinlichkeiten
mehr
Maschinelles Lernen
und Neural Computation
36
Diskriminanzfunktionen für Normalverteilungen
• Streuung in alle Richtungen gleich („sphärisch“):
• Log-Fkt. Und multiplikative Faktoren ändern nichts an
Größenverhältnis:
• Quadratische Funktion
• Entscheidungsgrenze: g1(x)=g2(x), auch quadratisch
wenn 1= 2: linear
   
i
i
i
i
i c
P
g







 

 2
2
2
exp
2
1



μ
x
x
   
 
i
i
i
i c
P
g log
2 2
2




μ
x
x
Maschinelles Lernen
und Neural Computation
37
Visualisierung: Normalverteilungen
Maschinelles Lernen
und Neural Computation
38
Allgemeiner Ansatz: Diskriminanzanalyse
• Lineare Diskriminanzfunktion:
entspricht dem Perceptron mit 1 Output Unit pro Klasse
• Quadratisch linear:
entspricht einer „Vorverarbeitung“ der Daten,
Parameter (w,v) noch immer linear
  



n
i
i
i w
x
w
g
1
0
x
   
  



n
i
p
i
p
j
j
i
ij
i
i w
x
x
v
x
w
g
1
0
1 1
x
Maschinelles Lernen
und Neural Computation
39
Der Schritt zum neuronalen Netz
• Allgemein linear:
beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung
• Neuronales Netz:
NN implementiert adaptive Vorverarbeitung
nichtlinear in Parametern (w)
    0
1
w
y
w
g
p
i
i
i
i 
 

x
x
   
    Gauss
...
Sigmoide
...
f
f
y
f
f
y
i
i
i
i
x
w
x
x
w
x T


 MLP
RBFN
Maschinelles Lernen
und Neural Computation
40
Beispiel: XOR
• (0 0)  0
(1 0)  1
(0 1)  1
(1 1)  0
•  Exklusives Oder
• 4. Muster ist Summe des
2. und 3. (lineare
Abhängigkeit)
• Punkte lassen sich durch
keine Gerade trennen
Maschinelles Lernen
und Neural Computation
41
0
0 0
0 0
0 0
Hidden Units
• Zwei Perceptrons + nichtlineare Transferfunktion:
1
1 0
1 -1
1 0
1
0 1
-1 1
0 1
0
0 0
0 0
1 1
• Schwellwertfunktion bricht lineare Abhängigkeit
Maschinelles Lernen
und Neural Computation
42
Beliebige Klassifikationen
• Jede Hidden
Unit teilt
Raum in 2
Hälften
• Output Units
wirken wie
“AND”
• Sigmoide:
verlaufende
Bereiche
Maschinelles Lernen
und Neural Computation
43
Beispiel: MLP
• MLP mit 5 Hidden und 2
Output Units
• Lineare Transferfunktion
am Output
• Quadratischer Fehler
Maschinelles Lernen
und Neural Computation
44
MLP zur Diskriminanzanalyse
• MLP (und RBFN) ist direkte Erweiterung
klassischer Modelle
• Stärke: beliebige nichtlineare
Diskriminanzfunktionen
• Hidden Units: Adaptive Vorverarbeitung des
Inputs
• Form der Diskriminanzfunktion außerhalb der
Entscheidungsgrenze belanglos
• Perceptron ist identisch mit linearer
Diskriminanzanalyse
Maschinelles Lernen
und Neural Computation
45
Alternativer Ansatz: Schätzung der Verteilungen
• Beim Ansatz mittels Diskriminanzfunktionen geht
ein wesentlicher Aspekt verloren:
Wahrscheinlichkeiten der Klassenzugehörigkeit
•  mehr an Bayes halten, Dichtefunktion schätzen
(vor allem p(x|ci))
• Parametrisch: Form ist bekannt, weniger
Parameter zu schätzen
• Nichtparametrisch: Form ist unbekannt,
theoretisch beliebig
Maschinelles Lernen
und Neural Computation
46
Parametrisch: Maximum Likelihood (ML)
• Ann.: Verteilung hat eine bestimmte, analytisch
beschreibbare Form (z.B. Normalverteilung) mit
Parametern  (z.B. Zentrum und Weite)
• Likelihood:
• Entspricht der „Wahrscheinlichkeit“, dass Daten
beobachtet werden, wenn die Verteilung richtig ist
• ML: Finde jenes , das die Beobachtungen am
wahrscheinlichsten macht: Maximiere L()
• Vor: Beobachtungen (Daten) sind unabhängig voneinander
   





n
i
i
p
p
L
1
| θ
x
θ
|
Menge aller Datenpunkte
Maschinelles Lernen
und Neural Computation
47
Beispiel: eindimensionale Normalverteilung
• Vereinfachung (ähnlich wie zuvor):
logarithmieren, Vorzeichen ändern, Konstante weglassen, minimieren
minimiere die negative log-Likelihood
       

 








 




n
i
i
n
i
i x
x
p
L
L
1
2
2
1 2
exp
2
1
,
|
,








θ
   









 



n
i
i
x
L
1
2
2
2
log
log



• Minimierung: 1. Ableitung auf 0 setzen
 

 




n
i
i
n
i
i
x
n
x
n 1
2
2
1
ˆ
1
ˆ
1
ˆ 


Erwartetes Ergebnis:
Mittelwert und Varianz
Maschinelles Lernen
und Neural Computation
48
Likelihood-Funktionen für die Normalverteilung
• L() für Punkte 1, 2 und 3, =1 • L() für Punkte 1, 2 und 3,  =1
(wieder Gauss-Fkt.)
• L() für
einen
Punkt 1,
 =1:
 ML nicht immer
sinnvoll!
Maschinelles Lernen
und Neural Computation
49
Nichtparametrisch: Parzen-Windows
• Wenn Form beliebig, keine Likelihood angebbar
• Wähle einen kleinen (Hyper-)Würfel, zähle
wieviel Punkte drin liegen (ki)
Geschätzte Dichte:  
i
i
i
V
n
k
x
p 
• Wenn n, Vi0,
dann immer genauer
• Entspricht einem
normalisierten
Histogramm
Volumen
Maschinelles Lernen
und Neural Computation
50
Der Fluch der Dimensionalität
• (Bellman 1961):
bei nichtparametrischen Fällen steigt die Anzahl
der benötigten Beispiele exponentiell mit der
Dimensionalität des Input!
• Parzen:
– wenn Fenster klein, muss es noch genügend Beispiele
enthalten
– je mehr Dimensionen, desto dünner gesät
•  möglichst wenige Inputs, viele Daten
Maschinelles Lernen
und Neural Computation
51
Semiparametrisch: Gaussian Mixtures (GMM)
• Nähere beliebige Verteilung
durch eine Mischung von
Normalverteilungen an
• Gleiches Prinzip wie bei
neuronalen Netzen
• Maximum Likelihood:
   









 


k
i i
i
i
i
l
x
c
x
p
1
2
2
2
exp
2
|





   



n
j
i
n
c
x
p
L
1
,
| σ
μ,
π,
σ
μ,
π,  -logL, Gradientenverfahren
Maschinelles Lernen
und Neural Computation
52
Beispiel
• Class-
conditionals:
• Posterior:
(90 gedreht)
• Entscheidungsgrenze:
Maschinelles Lernen
und Neural Computation
53
MLP zur Klassifikation
• Beweis existiert:
MLP nähert die a-posteriori
Wahrscheinlichkeit an
• Aktivierungsfunktion: Softmax
(eigene Fehlerfunktion
notwendig; siehe später)
• A-priori Wahrscheinlichkeiten:
Verteilungen im Trainingsset
 
 


 k
i
i
j
j
x
x
y
1
exp
exp
Maschinelles Lernen
und Neural Computation
54
Die Softmax-Funktion
• Erzwingt, dass Outputs als Wahrscheinlichkeiten interpretierbar sind
• Bezug zum Bayes’schen Theorem
• Spezialfall: Sigmoide Funktion
nur 2 Klassen, 1 Output Unit: durchdividieren
 
 
1
,
1
0
exp
exp
1
out
out
1
out
out
out




 
 

k
j
j
j
k
i
j
j
j x
x
y
y
x
     
   


 k
i
i
i
i
i
i
c
P
c
p
c
P
c
p
c
P
1
in
in
in
|
|
|
x
x
x
Wenn Expontentialverteilung
 Softmax
Nettoinput ist log. von Dichte
out
1
1
out
j
y
j
e
x 


Maschinelles Lernen
und Neural Computation
55
Warum Wahrscheinlichkeiten?
• Mehr Information
• Ablehnung von unsicheren Fällen: Performanz
steigt, aber einige Fälle unentscheidbar
• Einfache Berücksichtigung von anderen a-priori
Wahrscheinlichkeiten
• Berücksichtigung von Kosten für Fehler
• Verknüpfung mit anderen Quellen
Maschinelles Lernen
und Neural Computation
56
NN als semiparametrische Methoden
• Semiparametrisch:
Form relative beliebig, aber dennoch durch
Anzahl der Hidden Units („Modellkomplexität“)
beschränkt
• Fluch der Dimension abgeschwächt, aber immer
noch gegeben: Bedarf steigt ungefähr quadratisch
•  NN haben gute Eigenschaften, wenn Dichten
unbekannt, aber immer noch gilt:
wenige Inputs, viele Daten!
Maschinelles Lernen
und Neural Computation
57
Nachtrag: k-nearest neighbor
• Speichere alle Trainingssätze mit zugehöriger Klasse
• Neuer Fall: wähle die k nähesten Trainingsfälle, nimm Klasse, die am
häufigsten vorkommt
• Duda & Hart 1974:
Nearest Neighbor (k=1) hat maximal den doppelten Fehler des
bayesoptimalen Klassifizierers (für große Fallzahl)
•  kann als Benchmark verwendet werden
• Approximiert auch die a-priori Wahrscheinlichkeit direkt
• nichtparametrisch
k=4:
3 Klasse 2
1 Klasse 1
 Klasse 2
(posterior ¾)
Maschinelles Lernen
und Neural Computation
58
Zusammenfassung
• NN sind semiparametrische Methoden zur
Klassifikation
• Lt. Bayes sind Wahrscheinlichkeiten angebbar,
bringt mehr Information
• Es existieren gleichmächtige Alternativen (z.B.
GMM)
• Nearest Neighbor als Benchmark

Contenu connexe

Plus de بشير امين حيدر

Plus de بشير امين حيدر (12)

Green Chemistry-1.pptx
Green Chemistry-1.pptxGreen Chemistry-1.pptx
Green Chemistry-1.pptx
 
مخطط المنهاج جنائي عام.pptx
مخطط المنهاج جنائي عام.pptxمخطط المنهاج جنائي عام.pptx
مخطط المنهاج جنائي عام.pptx
 
Ubiquity_Commercial.pptx
Ubiquity_Commercial.pptxUbiquity_Commercial.pptx
Ubiquity_Commercial.pptx
 
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptxالفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
 
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptxالفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
الفصل الرابع مناهج البحث في علم الاجتماع الجزء الأول.pptx
 
بحث بشير أمين حيدر Cimetidine.pptx
بحث بشير أمين حيدر Cimetidine.pptxبحث بشير أمين حيدر Cimetidine.pptx
بحث بشير أمين حيدر Cimetidine.pptx
 
Suggestions for Creating Good Quality Presentations.ppt
Suggestions for Creating Good Quality Presentations.pptSuggestions for Creating Good Quality Presentations.ppt
Suggestions for Creating Good Quality Presentations.ppt
 
Saccone_barcode.ppt
Saccone_barcode.pptSaccone_barcode.ppt
Saccone_barcode.ppt
 
1472750387.pptx
1472750387.pptx1472750387.pptx
1472750387.pptx
 
تابع محاضرة ال liver.pdf
تابع محاضرة ال liver.pdfتابع محاضرة ال liver.pdf
تابع محاضرة ال liver.pdf
 
parkinson case study.pdf 3.pdf
parkinson case study.pdf 3.pdfparkinson case study.pdf 3.pdf
parkinson case study.pdf 3.pdf
 
MDD case study2 (1).pdf
MDD case study2 (1).pdfMDD case study2 (1).pdf
MDD case study2 (1).pdf
 

ml-nc-Kap2.ppt

  • 1. Maschinelles Lernen und Neural Computation 28 Kapitel 2: Klassifikation
  • 2. Maschinelles Lernen und Neural Computation 29 1 x C1 C2 ‘nein’ ‘ja’ Ein einfacher Fall • Ein Feature, Histogramme für beide Klassen (z.B. Glukosewert, Diabetes ja/nein) • Keine perfekte Trennung möglich • Entscheidung: Schwellwert • Frage: Wo setze ich ihn am besten hin?
  • 3. Maschinelles Lernen und Neural Computation 30 Der allgemeine Fall: Bayes‘sches Theorem • Ann: Daten fallen in k Klassen, • wähle für eine Beobachtung xj die Wahrscheinlichste aus         j i i j j i p c P c p c P x x x | |  Wahrscheinlichkeit für Beobachtung, wenn in Klasse i („likelihood“, „class-conditional“) Wahrscheinlichkeit für Klasse i vor der Beobachtung („a priori“) Wahrscheinlichkeit, dass Beobachtung Zur Klasse i gehört („a posteriori“) Wahrscheinlichkeit für das Auftreten der Beobachtung          k i i i j j c P c p p 1 | x x Nenner ist Summe aller möglichen Zähler (aller Fälle)
  • 4. Maschinelles Lernen und Neural Computation 31 Der optimale Klassifikator • Klassifikation: wähle die Klasse i mit der höchsten a-posteriori Wahrscheinlichkeit • Erzielt das bestmögliche Resultat • Bayes‘sche Formel erleichtert das Problem, da Wahrscheinlichkeiten auf der rechten Seite meist leichter zu bestimmen sind • Da p(x) für alle Klassen gleich ist, kann es oft weggelassen werden
  • 5. Maschinelles Lernen und Neural Computation 32 Einschub: Wahrscheinlichkeitsdichten • Für diskrete Variablen (endliche Werte): Wahrscheinlichkeit, z.B.: P(ci) • Für kontinuierliche Variablen nicht möglich: P(xj)=0 • Stattdessen: Wahrscheinlichkeitsdichtefunktion p(x) p(xj) ... Dichte an diesem Punkt (kann größer als 1 sein) • Wahrscheinlichkeit, dass x in einem kleinen Intervall liegt • Dichte kann wie Wahrscheinlichkeit behandelt werden   1      x x d p     j P d p j j x x x x x x x x       
  • 6. Maschinelles Lernen und Neural Computation 33 Beispiel: 1 Variable, 2 Klassen • Annahme: in beiden Klassen sind Beobachtungen normalverteilt Verteilung der Werte für Klasse 1 („class-conditional“) für Klasse 2 Entscheidungsgrenze • Entscheidungsgrenze: Schnittpunkt der beiden Kurven • Multiplikation mit a-priori Wahrscheinlichkeiten: Entscheidungsgrenze verschiebt sich • Durchdividieren durch Summe ergibt Wahrscheinlichkeit für Klasse
  • 7. Maschinelles Lernen und Neural Computation 34 Beispiel: 2 Variablen, 2 Klassen • 2-dim. Gaussverteilungen • Lineare Entscheidungsgrenze
  • 8. Maschinelles Lernen und Neural Computation 35 Klassifikatoren • Problem: Dichteverteilungen meist unbekannt • Lösung: – Schätzen der Verteilungen – Schätzen der Entscheidungsgrenze – Schätzen von Diskriminanzfunktionen: Wähle für jede Klasse Fkt. gi(x) Klasse ci, wenn gi(x)>gj(x) für alle ji z.B.:                 i i i i i i c P c p g c P c p g log | log |    x x x x Keine Wahrscheinlichkeiten mehr
  • 9. Maschinelles Lernen und Neural Computation 36 Diskriminanzfunktionen für Normalverteilungen • Streuung in alle Richtungen gleich („sphärisch“): • Log-Fkt. Und multiplikative Faktoren ändern nichts an Größenverhältnis: • Quadratische Funktion • Entscheidungsgrenze: g1(x)=g2(x), auch quadratisch wenn 1= 2: linear     i i i i i c P g            2 2 2 exp 2 1    μ x x       i i i i c P g log 2 2 2     μ x x
  • 10. Maschinelles Lernen und Neural Computation 37 Visualisierung: Normalverteilungen
  • 11. Maschinelles Lernen und Neural Computation 38 Allgemeiner Ansatz: Diskriminanzanalyse • Lineare Diskriminanzfunktion: entspricht dem Perceptron mit 1 Output Unit pro Klasse • Quadratisch linear: entspricht einer „Vorverarbeitung“ der Daten, Parameter (w,v) noch immer linear       n i i i w x w g 1 0 x           n i p i p j j i ij i i w x x v x w g 1 0 1 1 x
  • 12. Maschinelles Lernen und Neural Computation 39 Der Schritt zum neuronalen Netz • Allgemein linear: beliebige Vorverarbeitungsfunktionen, lineare Verknüpfung • Neuronales Netz: NN implementiert adaptive Vorverarbeitung nichtlinear in Parametern (w)     0 1 w y w g p i i i i     x x         Gauss ... Sigmoide ... f f y f f y i i i i x w x x w x T    MLP RBFN
  • 13. Maschinelles Lernen und Neural Computation 40 Beispiel: XOR • (0 0)  0 (1 0)  1 (0 1)  1 (1 1)  0 •  Exklusives Oder • 4. Muster ist Summe des 2. und 3. (lineare Abhängigkeit) • Punkte lassen sich durch keine Gerade trennen
  • 14. Maschinelles Lernen und Neural Computation 41 0 0 0 0 0 0 0 Hidden Units • Zwei Perceptrons + nichtlineare Transferfunktion: 1 1 0 1 -1 1 0 1 0 1 -1 1 0 1 0 0 0 0 0 1 1 • Schwellwertfunktion bricht lineare Abhängigkeit
  • 15. Maschinelles Lernen und Neural Computation 42 Beliebige Klassifikationen • Jede Hidden Unit teilt Raum in 2 Hälften • Output Units wirken wie “AND” • Sigmoide: verlaufende Bereiche
  • 16. Maschinelles Lernen und Neural Computation 43 Beispiel: MLP • MLP mit 5 Hidden und 2 Output Units • Lineare Transferfunktion am Output • Quadratischer Fehler
  • 17. Maschinelles Lernen und Neural Computation 44 MLP zur Diskriminanzanalyse • MLP (und RBFN) ist direkte Erweiterung klassischer Modelle • Stärke: beliebige nichtlineare Diskriminanzfunktionen • Hidden Units: Adaptive Vorverarbeitung des Inputs • Form der Diskriminanzfunktion außerhalb der Entscheidungsgrenze belanglos • Perceptron ist identisch mit linearer Diskriminanzanalyse
  • 18. Maschinelles Lernen und Neural Computation 45 Alternativer Ansatz: Schätzung der Verteilungen • Beim Ansatz mittels Diskriminanzfunktionen geht ein wesentlicher Aspekt verloren: Wahrscheinlichkeiten der Klassenzugehörigkeit •  mehr an Bayes halten, Dichtefunktion schätzen (vor allem p(x|ci)) • Parametrisch: Form ist bekannt, weniger Parameter zu schätzen • Nichtparametrisch: Form ist unbekannt, theoretisch beliebig
  • 19. Maschinelles Lernen und Neural Computation 46 Parametrisch: Maximum Likelihood (ML) • Ann.: Verteilung hat eine bestimmte, analytisch beschreibbare Form (z.B. Normalverteilung) mit Parametern  (z.B. Zentrum und Weite) • Likelihood: • Entspricht der „Wahrscheinlichkeit“, dass Daten beobachtet werden, wenn die Verteilung richtig ist • ML: Finde jenes , das die Beobachtungen am wahrscheinlichsten macht: Maximiere L() • Vor: Beobachtungen (Daten) sind unabhängig voneinander          n i i p p L 1 | θ x θ | Menge aller Datenpunkte
  • 20. Maschinelles Lernen und Neural Computation 47 Beispiel: eindimensionale Normalverteilung • Vereinfachung (ähnlich wie zuvor): logarithmieren, Vorzeichen ändern, Konstante weglassen, minimieren minimiere die negative log-Likelihood                          n i i n i i x x p L L 1 2 2 1 2 exp 2 1 , | ,         θ                   n i i x L 1 2 2 2 log log    • Minimierung: 1. Ableitung auf 0 setzen          n i i n i i x n x n 1 2 2 1 ˆ 1 ˆ 1 ˆ    Erwartetes Ergebnis: Mittelwert und Varianz
  • 21. Maschinelles Lernen und Neural Computation 48 Likelihood-Funktionen für die Normalverteilung • L() für Punkte 1, 2 und 3, =1 • L() für Punkte 1, 2 und 3,  =1 (wieder Gauss-Fkt.) • L() für einen Punkt 1,  =1:  ML nicht immer sinnvoll!
  • 22. Maschinelles Lernen und Neural Computation 49 Nichtparametrisch: Parzen-Windows • Wenn Form beliebig, keine Likelihood angebbar • Wähle einen kleinen (Hyper-)Würfel, zähle wieviel Punkte drin liegen (ki) Geschätzte Dichte:   i i i V n k x p  • Wenn n, Vi0, dann immer genauer • Entspricht einem normalisierten Histogramm Volumen
  • 23. Maschinelles Lernen und Neural Computation 50 Der Fluch der Dimensionalität • (Bellman 1961): bei nichtparametrischen Fällen steigt die Anzahl der benötigten Beispiele exponentiell mit der Dimensionalität des Input! • Parzen: – wenn Fenster klein, muss es noch genügend Beispiele enthalten – je mehr Dimensionen, desto dünner gesät •  möglichst wenige Inputs, viele Daten
  • 24. Maschinelles Lernen und Neural Computation 51 Semiparametrisch: Gaussian Mixtures (GMM) • Nähere beliebige Verteilung durch eine Mischung von Normalverteilungen an • Gleiches Prinzip wie bei neuronalen Netzen • Maximum Likelihood:                  k i i i i i l x c x p 1 2 2 2 exp 2 |             n j i n c x p L 1 , | σ μ, π, σ μ, π,  -logL, Gradientenverfahren
  • 25. Maschinelles Lernen und Neural Computation 52 Beispiel • Class- conditionals: • Posterior: (90 gedreht) • Entscheidungsgrenze:
  • 26. Maschinelles Lernen und Neural Computation 53 MLP zur Klassifikation • Beweis existiert: MLP nähert die a-posteriori Wahrscheinlichkeit an • Aktivierungsfunktion: Softmax (eigene Fehlerfunktion notwendig; siehe später) • A-priori Wahrscheinlichkeiten: Verteilungen im Trainingsset        k i i j j x x y 1 exp exp
  • 27. Maschinelles Lernen und Neural Computation 54 Die Softmax-Funktion • Erzwingt, dass Outputs als Wahrscheinlichkeiten interpretierbar sind • Bezug zum Bayes’schen Theorem • Spezialfall: Sigmoide Funktion nur 2 Klassen, 1 Output Unit: durchdividieren     1 , 1 0 exp exp 1 out out 1 out out out          k j j j k i j j j x x y y x              k i i i i i i c P c p c P c p c P 1 in in in | | | x x x Wenn Expontentialverteilung  Softmax Nettoinput ist log. von Dichte out 1 1 out j y j e x   
  • 28. Maschinelles Lernen und Neural Computation 55 Warum Wahrscheinlichkeiten? • Mehr Information • Ablehnung von unsicheren Fällen: Performanz steigt, aber einige Fälle unentscheidbar • Einfache Berücksichtigung von anderen a-priori Wahrscheinlichkeiten • Berücksichtigung von Kosten für Fehler • Verknüpfung mit anderen Quellen
  • 29. Maschinelles Lernen und Neural Computation 56 NN als semiparametrische Methoden • Semiparametrisch: Form relative beliebig, aber dennoch durch Anzahl der Hidden Units („Modellkomplexität“) beschränkt • Fluch der Dimension abgeschwächt, aber immer noch gegeben: Bedarf steigt ungefähr quadratisch •  NN haben gute Eigenschaften, wenn Dichten unbekannt, aber immer noch gilt: wenige Inputs, viele Daten!
  • 30. Maschinelles Lernen und Neural Computation 57 Nachtrag: k-nearest neighbor • Speichere alle Trainingssätze mit zugehöriger Klasse • Neuer Fall: wähle die k nähesten Trainingsfälle, nimm Klasse, die am häufigsten vorkommt • Duda & Hart 1974: Nearest Neighbor (k=1) hat maximal den doppelten Fehler des bayesoptimalen Klassifizierers (für große Fallzahl) •  kann als Benchmark verwendet werden • Approximiert auch die a-priori Wahrscheinlichkeit direkt • nichtparametrisch k=4: 3 Klasse 2 1 Klasse 1  Klasse 2 (posterior ¾)
  • 31. Maschinelles Lernen und Neural Computation 58 Zusammenfassung • NN sind semiparametrische Methoden zur Klassifikation • Lt. Bayes sind Wahrscheinlichkeiten angebbar, bringt mehr Information • Es existieren gleichmächtige Alternativen (z.B. GMM) • Nearest Neighbor als Benchmark