Wenn das Modell auswendig lernt (Overfitting)

Dein ML-Modell erreicht 99 % auf den Trainingsdaten — stürzt aber auf 55 % bei neuen Daten ab. Das Modell hat nicht gelernt, das Problem zu lösen. Es hat die Antworten auswendig gelernt. Dieses Phänomen heißt Overfitting und ist der häufigste Fehler im Machine Learning.

In diesem Artikel lernst du, warum Overfitting passiert, wie du es erkennst und welche Werkzeuge es gibt, um es zu vermeiden.

Der auswendig lernende Schüler — Was ist Overfitting?

Stell dir einen Schüler vor, der sich auf eine Matheprüfung vorbereitet — aber nur die exakten Lösungen aller Übungsaufgaben auswendig lernt, ohne die Methode zu verstehen. Sobald in der echten Prüfung leicht veränderte Aufgaben auftauchen, versagt er, weil er nie gelernt hat, Probleme zu lösen, sondern nur, Antworten abzurufen.

Analogie:

Stell dir einen Schüler vor, der sich auf eine Matheprüfung vorbereitet — aber nur die exakten Lösungen aller Übungsaufgaben auswendig lernt, ohne die Methode zu verstehen. Sobald in der echten Prüfung leicht veränderte Aufgaben auftauchen, versagt er, weil er nie gelernt hat, Probleme zu lösen, sondern nur, Antworten abzurufen.

Definition:

Overfitting tritt auf, wenn ein Modell das Rauschen und die zufälligen Schwankungen in den Trainingsdaten lernt, anstatt die zugrunde liegenden Muster zu erkennen. Das Ergebnis: nahezu perfekte Leistung auf den Trainingsdaten, aber schlechte Leistung auf neuen, ungesehenen Daten. Hauptursachen sind ein zu komplexes Modell relativ zur Datenmenge, zu langes Training oder zu wenige Daten.

Anders als ein Schüler hat ein ML-Modell kein "Verständnis" — es optimiert eine Verlustfunktion. Die Analogie funktioniert für die Intuition, sollte aber nicht nahelegen, dass Modelle kognitive Prozesse haben.

Stell dir 10 Datenpunkte vor, die mit leichtem Rauschen einem quadratischen Trend folgen.

Grad 1 (gerade Linie): Verfehlt die Kurve komplett. Das ist Underfitting — das Modell ist zu einfach.
Grad 3: Erfasst den Trend gut. Die Kurve folgt dem Muster, ohne jede Schwankung mitzunehmen.
Grad 15: Geht durch jeden einzelnen Punkt, schwingt aber wild dazwischen. Das Modell hat das Rauschen auswendig gelernt. Der Trainingsfehler ist null — aber für jeden neuen Punkt liefert es absurde Vorhersagen.

Das ist der gefährlichste Trugschluss im Machine Learning. Ein Modell mit 99,9 % Trainingsgenauigkeit kann schwer overfittet sein. Die EINZIG aussagekräftige Metrik ist die Leistung auf den Validierungs- oder Testdaten. Trainingsgenauigkeit sagt nur, dass das Modell auswendig lernen kann — nicht, dass es verallgemeinern kann.

Jedes sehr komplexe Modell (wie heutige große KI-Systeme) neigt dazu, Daten einfach auswendig zu lernen. Deshalb überwachen Entwickler sowohl den Trainings- als auch den Validierungsfehler. Wenn der Validierungsfehler steigt, während der Trainingsfehler weiter sinkt, overfittet dein Modell — und genau dann solltest du aufhören zu trainieren (Early Stopping).

Neben dem Auswendiglernen gibt es noch ein zweites Extrem — ein Schüler, der nur die Kapitelüberschriften liest und dann zur Prüfung geht. Zu wenig investiert, um auch nur die Grundmuster zu erkennen.

Analogie:

Neben dem Auswendiglernen gibt es noch ein zweites Extrem — ein Schüler, der nur die Kapitelüberschriften liest und dann zur Prüfung geht. Zu wenig investiert, um auch nur die Grundmuster zu erkennen.

Definition:

Underfitting tritt auf, wenn ein Modell zu einfach ist, um die relevanten Muster in den Daten zu erfassen. Sowohl Trainings- als auch Testfehler sind hoch. Typische Ursachen: zu wenige Parameter, zu starke Regularisierung, zu wenige Trainings-Epochen.

Overfitting

Symptom: Niedriger Trainingsfehler, hoher Testfehler. Ursache: Modell zu komplex oder zu lange trainiert. Lösung: Modell vereinfachen, mehr Daten, Regularisierung, frühes Stoppen.

Underfitting

Symptom: Hoher Trainingsfehler UND hoher Testfehler. Ursache: Modell zu einfach oder zu wenig trainiert. Lösung: Komplexeres Modell, mehr Features, länger trainieren.

Interaktiv: Underfitting vs. Overfitting

Bewege den Schieberegler, um zu sehen, wie sich eine zu einfache Modellanpassung (links) von einer zu komplexen Anpassung (rechts) unterscheidet. In der Mitte liegt der Sweet Spot — das Modell erfasst die echten Muster, ohne das Rauschen auswendig zu lernen.

Underfitting vs. Overfitting

Verschiebe den Regler, um zwischen Underfitting (links) und Overfitting (rechts) zu wechseln. Die blauen Punkte sind Trainingsdaten. Die Kurve zeigt, wie das Modell die Daten interpretiert.

UnderfittingOverfitting

Auto

‹ ›

📉

Underfitting

Das Modell ist zu einfach. Es erkennt nicht einmal die offensichtlichen Muster in den Trainingsdaten. Wie ein Schüler, der die Aufgabe nicht verstanden hat.

Modell-KomplexitätZu niedrig

TrainingsfehlerHoch

TestfehlerHoch

📈

Overfitting

Das Modell ist zu komplex. Es lernt jeden einzelnen Datenpunkt auswendig, inklusive Rauschen. Wie ein Schüler, der die Antworten auswendig lernt statt zu verstehen.

Modell-KomplexitätZu hoch

TrainingsfehlerSehr niedrig

TestfehlerHoch

🎯

Sweet Spot: Good Fit

In der Mitte liegt der optimale Kompromiss: komplex genug, um echte Muster zu erkennen, aber einfach genug, um auf neue Daten zu generalisieren. Techniken wie Regularisierung, Kreuzvalidierung und Early Stopping helfen, diesen Punkt zu finden.

Die U-Kurve — Den Sweet Spot finden

Stell dir eine Grafik vor: Auf der X-Achse die Modellkomplexität (z. B. den Polynomgrad), auf der Y-Achse den Fehler. Was entsteht?

Der Trainingsfehler sinkt stetig mit wachsender Komplexität — das Modell passt sich immer besser an die Trainingsdaten an. Der Testfehler aber verhält sich anders: Er sinkt zunächst (weil das Modell besser wird), steigt dann aber wieder an (weil das Modell anfängt, Rauschen zu lernen).

Diese U-förmige Testkurve ist das zentrale Diagnosewerkzeug. Am tiefsten Punkt der U-Kurve liegt der optimale Punkt — die beste Balance zwischen zu einfach (Underfitting, links) und zu komplex (Overfitting, rechts).

Der Bias-Varianz-Tradeoff erklärt, WARUM die U-Kurve existiert.

Bias (Verzerrung) = der systematische Fehler durch eine zu starke Vereinfachung des Modells. Hoher Bias bedeutet, das Modell verpasst die echten Muster (Underfitting).

Varianz = die Empfindlichkeit des Modells gegenüber Schwankungen in den Trainingsdaten. Hohe Varianz bedeutet, das Modell reagiert auf Rauschen statt auf Muster (Overfitting).

Gesamtfehler = Bias² + Varianz + irreduzibler Rauschanteil

Stell dir das Bogenschießen vor: Hoher Bias = du triffst konsistent die falsche Stelle (Pfeile eng zusammen, aber neben der Mitte). Hohe Varianz = Pfeile überall verstreut (selbst wenn sie im Durchschnitt die Mitte treffen). Du willst beides niedrig: einen engen Cluster genau im Bullseye.

Anders als beim echten Bogenschießen kann man im ML nicht einfach "besser zielen". Einen stärkeren Bogen (komplexeres Modell) zu verwenden kann die Pfeile stärker streuen (höhere Varianz).

Wenn du den Bias reduzierst (komplexeres Modell), steigt fast immer die Varianz. Wenn du die Varianz reduzierst (einfacheres Modell), steigt der Bias. Der optimale Punkt minimiert die Summe.

Train, Validate, Test — Das Drei-Prüfungs-System

Woher weißt du, ob dein Modell verallgemeinern kann? Du testest es an Daten, die es noch nie gesehen hat. Dafür wird der Datensatz in drei disjunkte Teile aufgeteilt:

1

Training (60-70 %): Tägliche Hausaufgaben. Das Modell lernt aus diesen Daten.

2

Validation (15-20 %): Probeklausur. Du justierst Hyperparameter und überwachst Overfitting.

3

Test (15-20 %): Abschlussprüfung. Genau EINMAL am Ende verwendet.

Wie in der Schule: Die Hausaufgaben sind zum Üben, die Probeklausur zeigt, wo du stehst, und die Abschlussprüfung darfst du nur einmal schreiben. Wer vorher die echte Prüfung sieht und damit übt, hat kein valides Ergebnis mehr.

Wenn du den Testdatensatz verwendest, um Entscheidungen zu treffen (z. B. Modellauswahl oder Hyperparameter-Tuning), verliert er seine Aussagekraft. Er wird dann faktisch zum zweiten Validierungsdatensatz, und du hast keine unvoreingenommene Schätzung der realen Leistung mehr.

from sklearn.model_selection import train_test_split

# Schritt 1: 70 % Training, 30 % temporär
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Schritt 2: Temporär aufteilen in 15 % Validation + 15 % Test
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, random_state=42
)

Bei kleinen Datensätzen reicht eine einzelne Aufteilung nicht aus. Hier hilft die Kreuzvalidierung (Cross-Validation): Der Datensatz wird in k Teile ("Folds") aufgeteilt, und das Training wird k-mal wiederholt, wobei jedes Fold einmal als Validierung dient.

Was kannst du tun?

Overfitting ist kein Schicksal. Diese vier Strategien helfen:

Mehr Daten Mehr Trainingsdaten machen es dem Modell schwerer, Rauschen zu lernen. Wenn möglich, die effektivste Strategie.

Einfacheres Modell Weniger Parameter = weniger Freiheitsgrade zum Auswendiglernen. Z. B. Polynomgrad 3 statt 15.

Regularisierung Bestraft extreme Parametergrößen (L1/L2). Zwingt das Modell, einfachere Lösungen zu bevorzugen.

Early Stopping Stoppe das Training, sobald der Validierungsfehler nicht mehr sinkt. Verhindert, dass das Modell sich an Rauschen anpasst.

Interaktiv: Warum Komplexität explodiert

Bewege den Schieberegler, um zu sehen, wie schnell die Berechnungskosten verschiedener Modellkomplexitäten wachsen. Ein O(n²)-Modell braucht bei 100 Datenpunkten bereits 10.000 Operationen — ein Grund, warum Regularisierung so wichtig ist.

Eingabegröße n = 100

1500

O(1)1

O(n)100

O(n²)10.000

O(2ⁿ)1.073.741.824

Moderater Input

Bei n=100 wird der Unterschied sichtbar: O(n²) braucht 10.000 Operationen, während O(n) nur 100 braucht. O(log n) braucht nur 6.6 — das ist 15x weniger als O(n).

Verhältnis zu O(n)

Komplexität	Operationen	Faktor vs. O(n)
O(1)	1	100x schneller
O(n)	100	1x (Referenz)
O(n²)	10.000	100x langsamer
O(2ⁿ)	1.073.741.824	10737418x langsamer

Overfitting = Rauschen auswendig lernen statt Muster erkennen. Symptom: niedriger Trainingsfehler + hoher Testfehler.
Der Sweet Spot liegt zwischen Underfitting (zu einfach) und Overfitting (zu komplex) — sichtbar an der U-förmigen Testkurve.
Immer aufteilen: Training zum Lernen, Validation zum Justieren, Test zum Bewerten — und den Testdatensatz genau einmal verwenden.

Was ist Overfitting?

Das Modell schneidet schlecht auf den Trainingsdaten ab

Das Modell lernt das Rauschen der Trainingsdaten statt der echten Muster

Das Modell ist zu einfach für die Daten

Das Modell braucht mehr Parameter

1. Was ist Overfitting?

☐ A) Das Modell schneidet schlecht auf den Trainingsdaten ab
☐ B) Das Modell lernt das Rauschen der Trainingsdaten statt der echten Muster
☐ C) Das Modell ist zu einfach für die Daten
☐ D) Das Modell braucht mehr Parameter

2. Ein Modell erreicht 98 % Trainingsgenauigkeit, aber nur 52 % Testgenauigkeit. Was ist das wahrscheinlichste Problem?

☐ A) Die Testdaten sind fehlerhaft
☐ B) Das Modell zeigt Underfitting
☐ C) Das Modell zeigt Overfitting
☐ D) Die Lernrate ist zu hoch

3. Du hast 5 verschiedene Modelle trainiert und den Testdatensatz verwendet, um das beste auszuwählen. Dann meldest du die Testgenauigkeit des Gewinners. Was ist das Problem?

☐ A) Nichts — das ist Standardpraxis
☐ B) Du hättest mehr Modelle verwenden sollen
☐ C) Die gemeldete Testgenauigkeit ist optimistisch verzerrt, weil der Testdatensatz zur Modellauswahl benutzt wurde
☐ D) Der Trainingsdatensatz war zu klein

4. Du beobachtest, dass sowohl der Trainingsfehler als auch der Testfehler hoch sind. Was deutet das an?

☐ A) Overfitting — das Modell ist zu komplex
☐ B) Underfitting — das Modell ist zu einfach
☐ C) Die Daten sind zu verrauscht zum Lernen
☐ D) Der Testdatensatz ist zu klein

Auflösung: 1) B · 2) C · 3) C · 4) B

Verständnis-Check

Warum ist eine hohe Trainingsgenauigkeit allein ein gefährlicher Maßstab?
Was ist der Unterschied zwischen Validierungs- und Testdatensatz — und warum darf der Testdatensatz nur einmal verwendet werden?
Was passiert mit Bias und Varianz, wenn du die Modellkomplexität erhöhst?

Wenn das Modell auswendig lernt (Overfitting)

Der auswendig lernende Schüler — Was ist Overfitting?

Overfitting

Analogie:

Definition:

Beispiel: Polynomanpassung

Irrtum: Hohe Trainingsgenauigkeit = gutes Modell

Underfitting

Analogie:

Definition:

Interaktiv: Underfitting vs. Overfitting

Underfitting vs. Overfitting

Underfitting

Overfitting

Die U-Kurve — Den Sweet Spot finden

Deep Dive: Der Bias-Varianz-Tradeoff

Train, Validate, Test — Das Drei-Prüfungs-System

Die goldene Regel: Testdaten nur EINMAL verwenden

Praxis: Daten aufteilen mit scikit-learn

Was kannst du tun?

Dropout Regularisierung

Interaktiv: Warum Komplexität explodiert

Verhältnis zu O(n)

Zusammenfassung

Quiz: Overfitting

Was ist Overfitting?

Verständnis-Check

Der auswendig lernende Schüler — Was ist Overfitting?

Overfitting

Analogie:

Definition:

Beispiel: Polynomanpassung

Irrtum: Hohe Trainingsgenauigkeit = gutes Modell

Underfitting

Analogie:

Definition:

Interaktiv: Underfitting vs. Overfitting

Underfitting vs. Overfitting

Underfitting

Overfitting

Die U-Kurve — Den Sweet Spot finden

Deep Dive: Der Bias-Varianz-Tradeoff

Train, Validate, Test — Das Drei-Prüfungs-System

Die goldene Regel: Testdaten nur EINMAL verwenden

Praxis: Daten aufteilen mit scikit-learn

Was kannst du tun?

Dropout Regularisierung

Interaktiv: Warum Komplexität explodiert

Verhältnis zu O(n)

Zusammenfassung

Quiz: Overfitting

Was ist Overfitting?

Verständnis-Check

Verwandte Inhalte

Artikel

Wie gut ist dein Modell? Metriken, die wirklich zählen

Die Knöpfe der Maschine — Parameter vs. Hyperparameter

Programmieren vs. Trainieren

Das Herzstück des Lernens

Bias & Datenqualität

Computer Vision (CNNs): Wie Maschinen sehen lernten

Korrelation vs. Kausalität

Das Rohmaterial: Data Engineering für Machine Learning

Verteilungen: Die Form der Daten

Der Weg ins Tal: Gradientenabstieg

Das Netzwerk

Lineare & Logistische Regression

Wie KI ihre Fehler misst: Loss-Funktionen

Streuung von Daten

Supervised Learning — Lernen mit Lehrer

Transfer Learning & Fine-Tuning

Demo

Naive Bayes (Klassifikation)

Perceptron (Neuronale Netze)

Überwachtes Lernen

Glossar

Timeline