SlideShare une entreprise Scribd logo
1  sur  11
Verzerrung-Varianz-Dilemma
Eine Einführung
Mathematischer Hintergrund
• Die Beurteilung von Modellen ist fundamentaler Bestandteil für das
Verständnis dessen, wie gut ein Modell ist.
• Kapitel 2 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Das Verzerrung-Varianz-Dilemma (en: Bias Variance Trade-Off)
beschreibt den Punkt an dem wir nur noch Rauschen durch die
Erhöhung der Modellkomplexität hinzufügen
• Dadurch geht der Training-Error runter, der Test-Error jedoch steigt an
• Das Modell nach dem Verzerrung-Varianz-Dilemma beginnt zu
„overfitten“
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Stellt euch das Ziel ist ein Modell das
die korrekten Werte perfekt voraussagt
• Je weiter wir uns vom vom Mittelpunkt
der Zielscheibe entfernen, desto
schlechter wird die Vorhersage
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Nun stellt euch weiter vor wir könnten
mehrere Modell erstellen und eine
gewisse Anzahl unterschiedlicher
Treffer auf der Zielscheibe zu landen
• Jeder Treffer stellt eine Ausprägung
unseres Modells dar, gegeben der
Wahrscheinlichkeitsunterscheidung in
den Trainingsdaten, die wir wählen.
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Manchmal erhalten wir eine gute
Verteilung (nahe an der Realität) der
Trainingsdaten, deshalb stellen wir gute
Voraussagen auf. Wobei unsere
Trainingsdaten manchmal auch aus den
Ausreißern und nicht
standardverteilten Werten bestehen
können und somit zu schlechten
Vorhersagen führen.
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Diese verschiedenen Realisationen
erzeugen die Streuung auf der
Zielscheibe
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Eine häufige Versuchung für Anfänger ist es immer mehr Komplexität
zum Modell hinzuzufügen, um den “Fit“ des Modells zu erhöhen
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
• Dies zu tun kann zu einem „Overfit“ des Modells auf die
Trainingsdaten führen und große Errors bei neuen Daten (wie z.B. den
Testdaten) erzeugen
• Schauen wir uns ein exemplarisches Modell an, um zu sehen wie wir
Overfitting von einem Error-Standpunkt aus sehen können.
• Wir nutzen eine schwarze Kurve mit etwas Rauschen (verschiedene
Punkte daneben), um die wahre Verteilung der Daten zu zeigen.
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
Verzerrung-Varianz-Dilemma by Datamics, 2018
Verzerrung-Varianz-Dilemma
Verzerrung-Varianz-Dilemma by Datamics, 2018

Contenu connexe

Tendances

Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...
Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...
Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...Flink Forward
 
Top 5 Ways to Optimize for Cost Efficiency with the Cloud
Top 5 Ways to Optimize for Cost Efficiency with the CloudTop 5 Ways to Optimize for Cost Efficiency with the Cloud
Top 5 Ways to Optimize for Cost Efficiency with the CloudAmazon Web Services
 
ABD301-Analyzing Streaming Data in Real Time with Amazon Kinesis
ABD301-Analyzing Streaming Data in Real Time with Amazon KinesisABD301-Analyzing Streaming Data in Real Time with Amazon Kinesis
ABD301-Analyzing Streaming Data in Real Time with Amazon KinesisAmazon Web Services
 
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...Spark Summit
 
Develop Containerized Apps with AWS Fargate
Develop Containerized Apps with AWS Fargate Develop Containerized Apps with AWS Fargate
Develop Containerized Apps with AWS Fargate Amazon Web Services
 
Seamless replication and disaster recovery for Apache Hive Warehouse
Seamless replication and disaster recovery for Apache Hive WarehouseSeamless replication and disaster recovery for Apache Hive Warehouse
Seamless replication and disaster recovery for Apache Hive WarehouseDataWorks Summit
 
Millions quotes per second in pure java
Millions quotes per second in pure javaMillions quotes per second in pure java
Millions quotes per second in pure javaRoman Elizarov
 
HBaseCon 2015: HBase Performance Tuning @ Salesforce
HBaseCon 2015: HBase Performance Tuning @ SalesforceHBaseCon 2015: HBase Performance Tuning @ Salesforce
HBaseCon 2015: HBase Performance Tuning @ SalesforceHBaseCon
 
A Visual Introduction to Apache Kafka
A Visual Introduction to Apache KafkaA Visual Introduction to Apache Kafka
A Visual Introduction to Apache KafkaPaul Brebner
 
Feature engineering pipelines
Feature engineering pipelinesFeature engineering pipelines
Feature engineering pipelinesRamesh Sampath
 
re:Invent Deep Dive on Lambda Layers and Runtime API
re:Invent Deep Dive on Lambda Layers and Runtime APIre:Invent Deep Dive on Lambda Layers and Runtime API
re:Invent Deep Dive on Lambda Layers and Runtime APIAmazon Web Services
 
Open Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsOpen Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsMatthew Kalan
 
Monitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksMonitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksAnyscale
 
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...Amazon Web Services
 
Introduction To Kibana
Introduction To KibanaIntroduction To Kibana
Introduction To KibanaJen Stirrup
 
From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.Taras Matyashovsky
 

Tendances (20)

Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...
Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...
Flink Forward Berlin 2017: Aris Kyriakos Koliopoulos - Drivetribe's Kappa Arc...
 
Top 5 Ways to Optimize for Cost Efficiency with the Cloud
Top 5 Ways to Optimize for Cost Efficiency with the CloudTop 5 Ways to Optimize for Cost Efficiency with the Cloud
Top 5 Ways to Optimize for Cost Efficiency with the Cloud
 
Deep dive - AWS Fargate
Deep dive - AWS FargateDeep dive - AWS Fargate
Deep dive - AWS Fargate
 
ABD301-Analyzing Streaming Data in Real Time with Amazon Kinesis
ABD301-Analyzing Streaming Data in Real Time with Amazon KinesisABD301-Analyzing Streaming Data in Real Time with Amazon Kinesis
ABD301-Analyzing Streaming Data in Real Time with Amazon Kinesis
 
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...
Spark and Object Stores —What You Need to Know: Spark Summit East talk by Ste...
 
Develop Containerized Apps with AWS Fargate
Develop Containerized Apps with AWS Fargate Develop Containerized Apps with AWS Fargate
Develop Containerized Apps with AWS Fargate
 
Python with MySql.pptx
Python with MySql.pptxPython with MySql.pptx
Python with MySql.pptx
 
Seamless replication and disaster recovery for Apache Hive Warehouse
Seamless replication and disaster recovery for Apache Hive WarehouseSeamless replication and disaster recovery for Apache Hive Warehouse
Seamless replication and disaster recovery for Apache Hive Warehouse
 
Millions quotes per second in pure java
Millions quotes per second in pure javaMillions quotes per second in pure java
Millions quotes per second in pure java
 
HBaseCon 2015: HBase Performance Tuning @ Salesforce
HBaseCon 2015: HBase Performance Tuning @ SalesforceHBaseCon 2015: HBase Performance Tuning @ Salesforce
HBaseCon 2015: HBase Performance Tuning @ Salesforce
 
A Visual Introduction to Apache Kafka
A Visual Introduction to Apache KafkaA Visual Introduction to Apache Kafka
A Visual Introduction to Apache Kafka
 
Cost Optimisation on AWS
Cost Optimisation on AWSCost Optimisation on AWS
Cost Optimisation on AWS
 
Feature engineering pipelines
Feature engineering pipelinesFeature engineering pipelines
Feature engineering pipelines
 
14 5 const키워드, void 포인터
14 5 const키워드, void 포인터14 5 const키워드, void 포인터
14 5 const키워드, void 포인터
 
re:Invent Deep Dive on Lambda Layers and Runtime API
re:Invent Deep Dive on Lambda Layers and Runtime APIre:Invent Deep Dive on Lambda Layers and Runtime API
re:Invent Deep Dive on Lambda Layers and Runtime API
 
Open Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsOpen Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design Patterns
 
Monitoring Error Logs at Databricks
Monitoring Error Logs at DatabricksMonitoring Error Logs at Databricks
Monitoring Error Logs at Databricks
 
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...
Building Your Own ML Application with AWS Lambda and Amazon SageMaker (SRV404...
 
Introduction To Kibana
Introduction To KibanaIntroduction To Kibana
Introduction To Kibana
 
From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.
 

Plus de Datamics

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science ToolboxDatamics
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science SoftskillsDatamics
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learningDatamics
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenDatamics
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GANDatamics
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoderDatamics
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Datamics
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine LearningDatamics
 
Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - GrundlagenDatamics
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data ScienceDatamics
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit PythonDatamics
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit PythonDatamics
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit PythonDatamics
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDatamics
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit PythonDatamics
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit PythonDatamics
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit PythonDatamics
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit PythonDatamics
 

Plus de Datamics (18)

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science Toolbox
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science Softskills
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learning
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow Grundlagen
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GAN
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoder
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine Learning
 
Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - Grundlagen
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data Science
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit Python
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit Python
 

Verzerrung Varianz Dilemma

  • 2. Mathematischer Hintergrund • Die Beurteilung von Modellen ist fundamentaler Bestandteil für das Verständnis dessen, wie gut ein Modell ist. • Kapitel 2 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 3. Verzerrung-Varianz-Dilemma • Das Verzerrung-Varianz-Dilemma (en: Bias Variance Trade-Off) beschreibt den Punkt an dem wir nur noch Rauschen durch die Erhöhung der Modellkomplexität hinzufügen • Dadurch geht der Training-Error runter, der Test-Error jedoch steigt an • Das Modell nach dem Verzerrung-Varianz-Dilemma beginnt zu „overfitten“ Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 4. Verzerrung-Varianz-Dilemma • Stellt euch das Ziel ist ein Modell das die korrekten Werte perfekt voraussagt • Je weiter wir uns vom vom Mittelpunkt der Zielscheibe entfernen, desto schlechter wird die Vorhersage Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 5. Verzerrung-Varianz-Dilemma • Nun stellt euch weiter vor wir könnten mehrere Modell erstellen und eine gewisse Anzahl unterschiedlicher Treffer auf der Zielscheibe zu landen • Jeder Treffer stellt eine Ausprägung unseres Modells dar, gegeben der Wahrscheinlichkeitsunterscheidung in den Trainingsdaten, die wir wählen. Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 6. Verzerrung-Varianz-Dilemma • Manchmal erhalten wir eine gute Verteilung (nahe an der Realität) der Trainingsdaten, deshalb stellen wir gute Voraussagen auf. Wobei unsere Trainingsdaten manchmal auch aus den Ausreißern und nicht standardverteilten Werten bestehen können und somit zu schlechten Vorhersagen führen. Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 7. Verzerrung-Varianz-Dilemma • Diese verschiedenen Realisationen erzeugen die Streuung auf der Zielscheibe Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 8. Verzerrung-Varianz-Dilemma • Eine häufige Versuchung für Anfänger ist es immer mehr Komplexität zum Modell hinzuzufügen, um den “Fit“ des Modells zu erhöhen Verzerrung-Varianz-Dilemma by Datamics, 2018
  • 9. Verzerrung-Varianz-Dilemma • Dies zu tun kann zu einem „Overfit“ des Modells auf die Trainingsdaten führen und große Errors bei neuen Daten (wie z.B. den Testdaten) erzeugen • Schauen wir uns ein exemplarisches Modell an, um zu sehen wie wir Overfitting von einem Error-Standpunkt aus sehen können. • Wir nutzen eine schwarze Kurve mit etwas Rauschen (verschiedene Punkte daneben), um die wahre Verteilung der Daten zu zeigen. Verzerrung-Varianz-Dilemma by Datamics, 2018