Verzerrung Varianz Dilemma

Verzerrung-Varianz-Dilemma
Eine Einführung

Mathematischer Hintergrund
• Die Beurteilung von Modellen ist fundamentaler Bestandteil für das
Verständnis dessen, wie gut ein Modell ist.
• Kapitel 2 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Verzerrung-Varianz-Dilemma by Datamics, 2018

• Das Verzerrung-Varianz-Dilemma (en: Bias Variance Trade-Off)
beschreibt den Punkt an dem wir nur noch Rauschen durch die
Erhöhung der Modellkomplexität hinzufügen
• Dadurch geht der Training-Error runter, der Test-Error jedoch steigt an
• Das Modell nach dem Verzerrung-Varianz-Dilemma beginnt zu
„overfitten“

• Stellt euch das Ziel ist ein Modell das
die korrekten Werte perfekt voraussagt
• Je weiter wir uns vom vom Mittelpunkt
der Zielscheibe entfernen, desto
schlechter wird die Vorhersage

• Nun stellt euch weiter vor wir könnten
mehrere Modell erstellen und eine
gewisse Anzahl unterschiedlicher
Treffer auf der Zielscheibe zu landen
• Jeder Treffer stellt eine Ausprägung
unseres Modells dar, gegeben der
Wahrscheinlichkeitsunterscheidung in
den Trainingsdaten, die wir wählen.

• Manchmal erhalten wir eine gute
Verteilung (nahe an der Realität) der
Trainingsdaten, deshalb stellen wir gute
Voraussagen auf. Wobei unsere
Trainingsdaten manchmal auch aus den
Ausreißern und nicht
standardverteilten Werten bestehen
können und somit zu schlechten
Vorhersagen führen.

• Diese verschiedenen Realisationen
erzeugen die Streuung auf der
Zielscheibe

• Eine häufige Versuchung für Anfänger ist es immer mehr Komplexität
zum Modell hinzuzufügen, um den “Fit“ des Modells zu erhöhen

• Dies zu tun kann zu einem „Overfit“ des Modells auf die
Trainingsdaten führen und große Errors bei neuen Daten (wie z.B. den
Testdaten) erzeugen
• Schauen wir uns ein exemplarisches Modell an, um zu sehen wie wir
Overfitting von einem Error-Standpunkt aus sehen können.
• Wir nutzen eine schwarze Kurve mit etwas Rauschen (verschiedene
Punkte daneben), um die wahre Verteilung der Daten zu zeigen.

Verzerrung Varianz Dilemma

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Datamics

Plus de Datamics (18)

Verzerrung Varianz Dilemma