Wenn das Modell auswendig lernt (Overfitting)

Wie man bemerkt, dass das Modell nicht gelernt, sondern auswendig gepaukt hat.

Grundlagen 7 min Einsteiger 18. Mai 2026

Dein ML-Modell erreicht 99 % auf den Trainingsdaten — stürzt aber auf 55 % bei neuen Daten ab. Das Modell hat nicht gelernt, das Problem zu lösen. Es hat die Antworten auswendig gelernt. Dieses Phänomen heißt Overfitting und ist der häufigste Fehler im Machine Learning.

In diesem Artikel lernst du, warum Overfitting passiert, wie du es erkennst und welche Werkzeuge es gibt, um es zu vermeiden.

Der auswendig lernende Schüler — Was ist Overfitting?

Overfitting

AnalogieDefinition
Stell dir einen Schüler vor, der sich auf eine Matheprüfung vorbereitet — aber nur die exakten Lösungen aller Übungsaufgaben auswendig lernt, ohne die Methode zu verstehen. Sobald in der echten Prüfung leicht veränderte Aufgaben auftauchen, versagt er, weil er nie gelernt hat, Probleme zu lösen, sondern nur, Antworten abzurufen.

Anders als ein Schüler hat ein ML-Modell kein "Verständnis" — es optimiert eine Verlustfunktion. Die Analogie funktioniert für die Intuition, sollte aber nicht nahelegen, dass Modelle kognitive Prozesse haben.

Beispiel: Polynomanpassung

Stell dir 10 Datenpunkte vor, die mit leichtem Rauschen einem quadratischen Trend folgen.

  • Grad 1 (gerade Linie): Verfehlt die Kurve komplett. Das ist Underfitting — das Modell ist zu einfach.
  • Grad 3: Erfasst den Trend gut. Die Kurve folgt dem Muster, ohne jede Schwankung mitzunehmen.
  • Grad 15: Geht durch jeden einzelnen Punkt, schwingt aber wild dazwischen. Das Modell hat das Rauschen auswendig gelernt. Der Trainingsfehler ist null — aber für jeden neuen Punkt liefert es absurde Vorhersagen.

Irrtum: Hohe Trainingsgenauigkeit = gutes Modell

Das ist der gefährlichste Trugschluss im Machine Learning. Ein Modell mit 99,9 % Trainingsgenauigkeit kann schwer overfittet sein. Die EINZIG aussagekräftige Metrik ist die Leistung auf den Validierungs- oder Testdaten. Trainingsgenauigkeit sagt nur, dass das Modell auswendig lernen kann — nicht, dass es verallgemeinern kann.

Jedes sehr komplexe Modell (wie heutige große KI-Systeme) neigt dazu, Daten einfach auswendig zu lernen. Deshalb überwachen Entwickler sowohl den Trainings- als auch den Validierungsfehler. Wenn der Validierungsfehler steigt, während der Trainingsfehler weiter sinkt, overfittet dein Modell — und genau dann solltest du aufhören zu trainieren (Early Stopping).

Underfitting

AnalogieDefinition
Neben dem Auswendiglernen gibt es noch ein zweites Extrem — ein Schüler, der nur die Kapitelüberschriften liest und dann zur Prüfung geht. Zu wenig investiert, um auch nur die Grundmuster zu erkennen.
Overfitting

Symptom: Niedriger Trainingsfehler, hoher Testfehler. Ursache: Modell zu komplex oder zu lange trainiert. Lösung: Modell vereinfachen, mehr Daten, Regularisierung, frühes Stoppen.

Underfitting

Symptom: Hoher Trainingsfehler UND hoher Testfehler. Ursache: Modell zu einfach oder zu wenig trainiert. Lösung: Komplexeres Modell, mehr Features, länger trainieren.

Interaktiv: Underfitting vs. Overfitting

Bewege den Schieberegler, um zu sehen, wie sich eine zu einfache Modellanpassung (links) von einer zu komplexen Anpassung (rechts) unterscheidet. In der Mitte liegt der Sweet Spot — das Modell erfasst die echten Muster, ohne das Rauschen auswendig zu lernen.

Underfitting vs. Overfitting

Verschiebe den Regler, um zwischen Underfitting (links) und Overfitting (rechts) zu wechseln. Die blauen Punkte sind Trainingsdaten. Die Kurve zeigt, wie das Modell die Daten interpretiert.

UnderfittingOverfitting
Auto
‹ ›
📉

Underfitting

Das Modell ist zu einfach. Es erkennt nicht einmal die offensichtlichen Muster in den Trainingsdaten. Wie ein Schüler, der die Aufgabe nicht verstanden hat.

Modell-KomplexitätZu niedrig
TrainingsfehlerHoch
TestfehlerHoch
📈

Overfitting

Das Modell ist zu komplex. Es lernt jeden einzelnen Datenpunkt auswendig, inklusive Rauschen. Wie ein Schüler, der die Antworten auswendig lernt statt zu verstehen.

Modell-KomplexitätZu hoch
TrainingsfehlerSehr niedrig
TestfehlerHoch
🎯
Sweet Spot: Good Fit

In der Mitte liegt der optimale Kompromiss: komplex genug, um echte Muster zu erkennen, aber einfach genug, um auf neue Daten zu generalisieren. Techniken wie Regularisierung, Kreuzvalidierung und Early Stopping helfen, diesen Punkt zu finden.

Die U-Kurve — Den Sweet Spot finden

Stell dir eine Grafik vor: Auf der X-Achse die Modellkomplexität (z. B. den Polynomgrad), auf der Y-Achse den Fehler. Was entsteht?

Der Trainingsfehler sinkt stetig mit wachsender Komplexität — das Modell passt sich immer besser an die Trainingsdaten an. Der Testfehler aber verhält sich anders: Er sinkt zunächst (weil das Modell besser wird), steigt dann aber wieder an (weil das Modell anfängt, Rauschen zu lernen).

Diese U-förmige Testkurve ist das zentrale Diagnosewerkzeug. Am tiefsten Punkt der U-Kurve liegt der optimale Punkt — die beste Balance zwischen zu einfach (Underfitting, links) und zu komplex (Overfitting, rechts).

Der Bias-Varianz-Tradeoff erklärt, WARUM die U-Kurve existiert.

Bias (Verzerrung) = der systematische Fehler durch eine zu starke Vereinfachung des Modells. Hoher Bias bedeutet, das Modell verpasst die echten Muster (Underfitting).

Varianz = die Empfindlichkeit des Modells gegenüber Schwankungen in den Trainingsdaten. Hohe Varianz bedeutet, das Modell reagiert auf Rauschen statt auf Muster (Overfitting).

Gesamtfehler = Bias² + Varianz + irreduzibler Rauschanteil

Stell dir das Bogenschießen vor: Hoher Bias = du triffst konsistent die falsche Stelle (Pfeile eng zusammen, aber neben der Mitte). Hohe Varianz = Pfeile überall verstreut (selbst wenn sie im Durchschnitt die Mitte treffen). Du willst beides niedrig: einen engen Cluster genau im Bullseye.

Anders als beim echten Bogenschießen kann man im ML nicht einfach "besser zielen". Einen stärkeren Bogen (komplexeres Modell) zu verwenden kann die Pfeile stärker streuen (höhere Varianz).

Wenn du den Bias reduzierst (komplexeres Modell), steigt fast immer die Varianz. Wenn du die Varianz reduzierst (einfacheres Modell), steigt der Bias. Der optimale Punkt minimiert die Summe.

Train, Validate, Test — Das Drei-Prüfungs-System

Woher weißt du, ob dein Modell verallgemeinern kann? Du testest es an Daten, die es noch nie gesehen hat. Dafür wird der Datensatz in drei disjunkte Teile aufgeteilt:

1
Training (60-70 %): Tägliche Hausaufgaben. Das Modell lernt aus diesen Daten.
2
Validation (15-20 %): Probeklausur. Du justierst Hyperparameter und überwachst Overfitting.
3
Test (15-20 %): Abschlussprüfung. Genau EINMAL am Ende verwendet.

Wie in der Schule: Die Hausaufgaben sind zum Üben, die Probeklausur zeigt, wo du stehst, und die Abschlussprüfung darfst du nur einmal schreiben. Wer vorher die echte Prüfung sieht und damit übt, hat kein valides Ergebnis mehr.

Die goldene Regel: Testdaten nur EINMAL verwenden

Wenn du den Testdatensatz verwendest, um Entscheidungen zu treffen (z. B. Modellauswahl oder Hyperparameter-Tuning), verliert er seine Aussagekraft. Er wird dann faktisch zum zweiten Validierungsdatensatz, und du hast keine unvoreingenommene Schätzung der realen Leistung mehr.

Praxis: Daten aufteilen mit scikit-learn

from sklearn.model_selection import train_test_split

# Schritt 1: 70 % Training, 30 % temporär
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Schritt 2: Temporär aufteilen in 15 % Validation + 15 % Test
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, random_state=42
)

Bei kleinen Datensätzen reicht eine einzelne Aufteilung nicht aus. Hier hilft die Kreuzvalidierung (Cross-Validation): Der Datensatz wird in k Teile ("Folds") aufgeteilt, und das Training wird k-mal wiederholt, wobei jedes Fold einmal als Validierung dient.

Was kannst du tun?

Overfitting ist kein Schicksal. Diese vier Strategien helfen:

Mehr Daten Mehr Trainingsdaten machen es dem Modell schwerer, Rauschen zu lernen. Wenn möglich, die effektivste Strategie.
Einfacheres Modell Weniger Parameter = weniger Freiheitsgrade zum Auswendiglernen. Z. B. Polynomgrad 3 statt 15.
Regularisierung Bestraft extreme Parametergrößen (L1/L2). Zwingt das Modell, einfachere Lösungen zu bevorzugen.
Early Stopping Stoppe das Training, sobald der Validierungsfehler nicht mehr sinkt. Verhindert, dass das Modell sich an Rauschen anpasst.

Interaktiv: Warum Komplexität explodiert

Bewege den Schieberegler, um zu sehen, wie schnell die Berechnungskosten verschiedener Modellkomplexitäten wachsen. Ein O(n²)-Modell braucht bei 100 Datenpunkten bereits 10.000 Operationen — ein Grund, warum Regularisierung so wichtig ist.

1500
O(1)1
O(n)100
O(n²)10.000
O(2ⁿ)1.073.741.824
Moderater Input

Bei n=100 wird der Unterschied sichtbar: O(n²) braucht 10.000 Operationen, während O(n) nur 100 braucht. O(log n) braucht nur 6.6 — das ist 15x weniger als O(n).

Verhältnis zu O(n)

KomplexitätOperationenFaktor vs. O(n)
O(1)1100x schneller
O(n)1001x (Referenz)
O(n²)10.000100x langsamer
O(2ⁿ)1.073.741.82410737418x langsamer

Zusammenfassung

  1. Overfitting = Rauschen auswendig lernen statt Muster erkennen. Symptom: niedriger Trainingsfehler + hoher Testfehler.
  2. Der Sweet Spot liegt zwischen Underfitting (zu einfach) und Overfitting (zu komplex) — sichtbar an der U-förmigen Testkurve.
  3. Immer aufteilen: Training zum Lernen, Validation zum Justieren, Test zum Bewerten — und den Testdatensatz genau einmal verwenden.

Quiz: Overfitting

Frage 1 / 4
Noch offen

Was ist Overfitting?

Wählen Sie eine Antwort
Auflösung: 1) B · 2) C · 3) C · 4) B

Verständnis-Check

  • Warum ist eine hohe Trainingsgenauigkeit allein ein gefährlicher Maßstab?
  • Was ist der Unterschied zwischen Validierungs- und Testdatensatz — und warum darf der Testdatensatz nur einmal verwendet werden?
  • Was passiert mit Bias und Varianz, wenn du die Modellkomplexität erhöhst?