Supervised Learning — Lernen mit Lehrer

Wenn du mit Karteikarten lernst, kennst du die Antwort auf der Rückseite schon, bevor du umdrehst — genau das ist das Grundprinzip von Supervised Learning. Die Maschine sieht Tausende solcher Karteikarten (Daten mit korrekten Antworten) und lernt, die Antwort für Karten vorherzusagen, die sie noch nie gesehen hat.

Im vorherigen Artikel hast du erfahren, dass ML-Modelle aus Daten lernen statt expliziten Regeln zu folgen. Jetzt schauen wir uns die häufigste Form dieses Lernens an: Supervised Learning, bei dem jedes Trainingsbeispiel eine korrekte Antwort mitbringt.

Features & Labels — Das Rohmaterial

Stell dir Karteikarten vor: Die Vorderseite zeigt ein Bild (Features), die Rückseite die korrekte Bezeichnung (Label). Du übst mit Hunderten Karten, bis du Muster erkennst. Genauso lernt das Modell aus vielen Beispielen mit bekannten Antworten.

Analogie:

Stell dir Karteikarten vor: Die Vorderseite zeigt ein Bild (Features), die Rückseite die korrekte Bezeichnung (Label). Du übst mit Hunderten Karten, bis du Muster erkennst. Genauso lernt das Modell aus vielen Beispielen mit bekannten Antworten.

Definition:

Features sind die messbaren Eingabeeigenschaften eines Datenpunkts (z.B. Wohnfläche, Zimmeranzahl, Baujahr). Labels sind die korrekten Antworten, die ein Mensch für jeden Datenpunkt liefert (z.B. Hauspreis). Das Modell lernt die Abbildung f(Features) → Label. "Supervised" bedeutet, dass es einen Lehrer gibt (die Labels), der dem Modell für jedes Trainingsbeispiel die richtige Antwort verrät.

Die Karteikarten-Analogie hat einen produktiven Nebeneffekt: Du könntest denken, das Modell lernt die Karten irgendwann auswendig. Genau das ist tatsächlich ein reales Problem — man nennt es Overfitting, und wir kommen gleich darauf zurück.

Konkretes Beispiel: Ein Spamfilter wird mit 10.000 E-Mails trainiert. Features sind Worthäufigkeiten, Absender-Domain und Anzahl der Links. Labels: "Spam" oder "Kein Spam" (von Menschen zugewiesen). Das Modell sieht 8.000 gelabelte E-Mails beim Training und muss die restlichen 2.000, die es nie gesehen hat, korrekt klassifizieren.

Labels sind nicht immer korrekt. Menschliche Annotatoren sind sich manchmal uneinig, machen Fehler oder wenden inkonsistente Kriterien an. Bei einem Spamfilter markiert ein Annotator vielleicht einen Newsletter als Spam, ein anderer nicht.

Ein Modell, das auf verrauschten Labels trainiert wird, lernt die Fehler des Lehrers, als wären sie korrekte Muster. Die Qualität der Labels bestimmt die Obergrenze der Modellleistung genauso stark wie deren Menge.

Interaktiv: Feature-Label-Zuordnung

Im Spamfilter-Beispiel oben hast du gesehen, wie Features und Labels zusammenwirken. Hier kannst du selbst ausprobieren, wie drei Merkmale einer E-Mail die Vorhersage beeinflussen.

Feature-Label-Zuordnung

Drei Merkmale (Features) einer E-Mail bestimmen, ob sie als Spam eingestuft wird. Verschiebe die Regler und beobachte, wie sich die Vorhersage ändert.

Anzahl Links

3

Verdächtige Wörter

2

Bekannter Absender

Berechnung:3×2 + 2×3 − 0 = 12

Vorhersage

Spam

Score 12 > 7 (Schwellenwert)

Klassifikation vs. Regression — Zwei Arten der Vorhersage

Je nach Art des Labels unterscheidet man zwei grundlegende Aufgabentypen im Supervised Learning. Der Unterschied wird vollständig durch die Natur des Labels bestimmt — nicht durch die Features.

Klassifikation

Sagt diskrete Kategorien vorher — wie eine Sortiermaschine, die fragt: "In welche Schublade gehört das?" Beispiele: Spam/Kein Spam, Katze/Hund/Vogel, gutartig/bösartig.

Regression

Sagt kontinuierliche Zahlenwerte vorher — wie eine Waage, die fragt: "Wie schwer ist das?" Beispiele: Hauspreis in Euro, Temperatur in Grad, Aktienkurs.

Spamfilter Klassifikation

Diagnose Klassifikation

Hauspreis Regression

Wetterbericht Regression

Bilderkennung Klassifikation

Aktienkurs Regression

Gleiches Datenset, unterschiedliche Fragen: Bei Patientendaten wird die Frage "Ist der Tumor gutartig oder bösartig?" zur Klassifikation (Label ist 0 oder 1). Die Frage "Wie groß wird der Tumor in sechs Monaten (in mm)?" wird zur Regression (Label ist eine kontinuierliche Messung). Gleiche Features, anderer Label-Typ, völlig anderer ML-Ansatz.

Grauzone: Eine Produktbewertung (1–5 Sterne) kann als Regression ("sage 4,2 Sterne vorher") oder als 5-Klassen-Klassifikation behandelt werden. Die Wahl hängt davon ab, ob der Abstand zwischen 3 und 4 Sternen als Distanz relevant ist.

Interaktiv: Supervised vs. Unsupervised vs. Semi-Supervised

Supervised Learning ist nur eines von drei großen Lernparadigmen. Das Venn-Diagramm zeigt, wie sie sich überlappen und welche Mischformen existieren.

Klicke auf einen Bereich

Klicke auf einen der Kreise oder Schnittflächen, um zu erfahren, welches Lernparadigma dort eingeordnet wird und was es bedeutet.

Der Supervised-Learning-Workflow

Supervised Learning folgt einer festen Pipeline aus fünf Schritten. Der wichtigste Schutzmechanismus dabei: der Train-Test-Split.

1

Daten sammeln & labeln

2

Aufteilen: ~80% Training, ~20% Test

3

Modell auswählen & trainieren

4

Auf Testdaten evaluieren

5

Modell deployen (Inference — das Modell auf neue, echte Daten anwenden)

Stell dir eine Prüfungsvorbereitung vor: Du übst mit Übungsaufgaben (Trainingsset), aber die echte Klausur (Testset) enthält Aufgaben, die du noch nie gesehen hast. Wenn du nur die Übungsantworten auswendig gelernt hast, ohne die Prinzipien zu verstehen, fällst du durch die Klausur. Das ist Overfitting.

Keine Sorge, du musst das nicht programmieren können — es zeigt nur, wie kurz so etwas in der Praxis ist. In Python mit scikit-learn:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

X, y = load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LinearRegression().fit(X_train, y_train)
print(f"Test-Score: {model.score(X_test, y_test):.2f}")

Zeile 5 lädt Daten mit Features (X) und Labels (y). Zeile 6 teilt 80/20 auf. Zeile 7 trainiert ein lineares Regressionsmodell. Zeile 8 bewertet es auf den ungesehenen Testdaten.

"Labels sind immer korrekt." — In Wirklichkeit ist Label Noise ein reales Problem. Annotatoren machen Fehler, und das Modell lernt diese Fehler als Muster.
"Mehr Daten helfen immer." — Mehr schlechte Labels verschlechtern das Modell. Qualität schlägt Quantität.
"Die Grenze zwischen Klassifikation und Regression ist immer klar." — Sternebewertungen (1–5) können als beides behandelt werden.

Transfer Learning erlaubt es, ein auf Millionen Beispielen vortrainiertes Modell zu nehmen und es mit nur wenigen Hundert gelabelten Datenpunkten auf eine neue Aufgabe feinzutunen. Das vortrainierte Modell hat bereits allgemeine Muster gelernt (z.B. Kanten und Texturen bei Bildern), sodass nur die letzte Entscheidungsschicht neu trainiert werden muss.

Praktisches Beispiel: Ein Unternehmen hat nur 200 gelabelte Bilder für eine Produkterkennung. Mit einem auf ImageNet (Millionen von Bildern) vortrainierten Modell reichen diese 200 Beispiele aus, um einen funktionierenden Klassifikator zu trainieren.

Supervised Learning braucht gelabelte Daten — Features (Eingabe) gepaart mit Labels (korrekte Ausgabe). Ohne Labels hat das Modell keinen Lehrer.
Klassifikation sagt Kategorien vorher (Spam/Kein Spam), Regression sagt Zahlen vorher (Hauspreis in Euro). Dieselben Daten können je nach Fragestellung für beides dienen.
Der Train-Test-Split ist der wichtigste Schutzmechanismus: Ein Modell, das nur auf bereits gesehenen Daten gut abschneidet (Overfitting), ist in der Praxis nutzlos.

Was ist ein "Label" in einem Supervised-Learning-Datensatz?

Ein Spaltenname in der Datentabelle

Die korrekte Antwort, die für jedes Trainingsbeispiel bereitgestellt wird

Der zum Training verwendete Algorithmus

Eine Kategorie des Modelltyps

1. Was ist ein "Label" in einem Supervised-Learning-Datensatz?

☐ A) Ein Spaltenname in der Datentabelle
☐ B) Die korrekte Antwort, die für jedes Trainingsbeispiel bereitgestellt wird
☐ C) Der zum Training verwendete Algorithmus
☐ D) Eine Kategorie des Modelltyps

2. Ein Krankenhaus möchte anhand von Bluttests vorhersagen, ob ein Patient Diabetes hat (ja/nein). Welche Art von Supervised-Learning-Aufgabe ist das?

☐ A) Regression, weil Blutwerte kontinuierliche Zahlen sind
☐ B) Klassifikation, weil die Vorhersage eine von zwei Kategorien ist
☐ C) Unsupervised Learning, weil das Modell Muster entdeckt
☐ D) Reinforcement Learning, weil das Modell Feedback bekommt

3. Ein Immobilienunternehmen hat Daten zu 5.000 Wohnungen (Größe, Stockwerk, Lage) mit Verkaufspreisen. Sie teilen die Daten 80/20 auf. Das Modell erreicht 0,99 auf Trainingsdaten, aber nur 0,45 auf Testdaten. Was ist das wahrscheinlichste Problem?

☐ A) Das Testset ist zu klein
☐ B) Die Features sind falsch gewählt
☐ C) Das Modell hat overfittet — es hat Trainingsdaten auswendig gelernt statt generalisierbare Muster zu erkennen
☐ D) Die Labels enthalten keine nützlichen Informationen

4. Ein Onlineshop hat Produktbewertungen von 1 bis 5 Sternen. Ein Entwickler möchte Bewertungen für neue Produkte vorhersagen. Er könnte das als Klassifikation (5 Klassen) oder Regression (eine Zahl) behandeln. Welche Überlegung ist am relevantesten?

☐ A) Klassifikation ist immer genauer als Regression
☐ B) Wenn der Abstand zwischen 3 und 4 Sternen als Distanz relevant ist (nicht nur als Kategorie), ist Regression sinnvoller
☐ C) Regression kann keine diskreten Werte verarbeiten
☐ D) Klassifikation braucht mehr Trainingsdaten als Regression

5. Ein Team trainiert einen Spamfilter mit 10.000 E-Mails. Sie entdecken, dass 500 E-Mails falsch gelabelt wurden (Spam als Kein-Spam markiert und umgekehrt). Wie lässt sich die Auswirkung am treffendsten beschreiben?

☐ A) Es hat keinen Effekt, weil 500 von 10.000 vernachlässigbar sind
☐ B) Das Modell lernt die Fehler der Annotatoren als korrekte Muster, was die reale Genauigkeit senkt
☐ C) Das Modell erkennt und korrigiert die falschen Labels automatisch
☐ D) Nur die Testset-Genauigkeit ist betroffen, nicht das Modell selbst

6. Ein Unternehmen hat nur 200 gelabelte Bilder, braucht aber einen Bildklassifikator. Ein Kollege schlägt Transfer Learning mit einem auf Millionen Bildern vortrainierten Modell vor. Warum kann das trotz des kleinen Datensatzes funktionieren?

☐ A) Transfer Learning verwendet überhaupt keine Labels
☐ B) Das vortrainierte Modell hat bereits allgemeine visuelle Merkmale gelernt (Kanten, Texturen, Formen), sodass nur die letzte Klassifikationsschicht mit den 200 Bildern trainiert werden muss
☐ C) 200 Bilder reichen für jedes Modell, wenn die Features gut sind
☐ D) Transfer Learning ist nur ein anderer Name für Data Augmentation

Auflösung: 1) B · 2) B · 3) C · 4) B · 5) B · 6) B

Verständnisprüfung

Warum braucht ein Supervised-Learning-Modell zwingend Labels?
Woran erkennst du, ob ein Problem mit Klassifikation oder Regression gelöst werden muss?
Warum ist der Train-Test-Split so wichtig — und was passiert, wenn man ihn weglässt?

Supervised Learning — Lernen mit Lehrer

Features & Labels — Das Rohmaterial

Feature & Label

Analogie:

Definition:

Deep Dive: Label Noise — Wenn der Lehrer Fehler macht

Interaktiv: Feature-Label-Zuordnung

Feature-Label-Zuordnung

Klassifikation vs. Regression — Zwei Arten der Vorhersage

Interaktiv: Supervised vs. Unsupervised vs. Semi-Supervised

Klicke auf einen Bereich

Der Supervised-Learning-Workflow

Python-Beispiel: Supervised Learning in 6 Zeilen

Häufige Fehlvorstellungen

Deep Dive: Transfer Learning — Braucht man immer Millionen Beispiele?

ImageNet: Der Datensatz der alles veränderte

Die wichtigsten Erkenntnisse

Quiz: Supervised Learning

Was ist ein "Label" in einem Supervised-Learning-Datensatz?

Verständnisprüfung

Features & Labels — Das Rohmaterial

Feature & Label

Analogie:

Definition:

Deep Dive: Label Noise — Wenn der Lehrer Fehler macht

Interaktiv: Feature-Label-Zuordnung

Feature-Label-Zuordnung

Klassifikation vs. Regression — Zwei Arten der Vorhersage

Interaktiv: Supervised vs. Unsupervised vs. Semi-Supervised

Klicke auf einen Bereich

Der Supervised-Learning-Workflow

Python-Beispiel: Supervised Learning in 6 Zeilen

Häufige Fehlvorstellungen

Deep Dive: Transfer Learning — Braucht man immer Millionen Beispiele?

ImageNet: Der Datensatz der alles veränderte

Die wichtigsten Erkenntnisse

Quiz: Supervised Learning

Was ist ein "Label" in einem Supervised-Learning-Datensatz?

Verständnisprüfung

Verwandte Inhalte

Artikel

Unsupervised Learning

Programmieren vs. Trainieren

Die Knöpfe der Maschine — Parameter vs. Hyperparameter

Die KI-Winter

Bayes & Bedingte Wahrscheinlichkeit

Korrelation vs. Kausalität

Regeln & Logik: Expertensysteme

Lineare & Logistische Regression

Wie gut ist dein Modell? Metriken, die wirklich zählen

Wenn das Modell auswendig lernt (Overfitting)

Demo

K-Means Clustering

Naive Bayes (Klassifikation)

Neuroevolution

Perceptron (Neuronale Netze)

Überwachtes Lernen

Glossar

Timeline