Lageparameter: Wo ist die Mitte?

Drei Wege, die "Mitte" der Daten zu finden — und die unterhaltsame Frage, welcher davon gerade unehrlich ist.

Grundlagen 13 min Einsteiger 10. Mai 2026

"Das Durchschnittsgehalt in diesem Unternehmen beträgt 50.600 Euro." Klingt vernünftig — bis du erfährst, dass die meisten Angestellten unter 45.000 Euro verdienen und ein einziges Managergehalt den Wert nach oben zieht. Ein einziges Wort kann die Wahrheit verschleiern: "Durchschnitt."

Durchschnitt und Median beanspruchen beide, die "Mitte" eines Datensatzes zu beschreiben. Aber sie beantworten grundlegend verschiedene Fragen — und die falsche Wahl kann dich in die Irre führen, wenn es darum geht, was "typisch" ist. In diesem Artikel lernst du, was ein Datensatz ist, wie der Durchschnitt als Schwerpunkt funktioniert, und warum der Median oft die ehrlichere Antwort gibt.

Der Datensatz — Vom Einzelwert zur Sammlung

Datensatz

AnalogieDefinition
Stell dir eine Klassenarbeit vor: 28 Schüler schreiben einen Mathetest. Jede Note ist ein Datenpunkt. Das Merkmal heißt "Note". Die 28 Schüler bilden deine Stichprobe. Alle Matheschüler in Deutschland wären die Grundgesamtheit. Die Lehrerin kann nicht alle Schüler im Land testen — sie arbeitet mit ihrer Stichprobe von 28.

In tabellarischen Daten entspricht ein Merkmal einer Spalte und ein Datenpunkt einer Zeile. In Python kannst du einen Datensatz als Liste (ein Merkmal) oder als Liste von Dictionaries (mehrere Merkmale) darstellen.

Python: Liste vs. Dictionary

# Eindimensional: ein Merkmal
gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]

# Mehrdimensional: mehrere Merkmale pro Datenpunkt
angestellte = [
    {"name": "Anna",  "gehalt": 32, "abt": "Support"},
    {"name": "Ben",   "gehalt": 120, "abt": "Management"},
    ...
]

Für den Rest dieses Artikels betrachten wir neun Gehälter in Tausend Euro: [32, 35, 38, 40, 42, 45, 48, 55, 120]. Acht Angestellte clustern zwischen 32k und 55k. Ein Ausreißer sitzt bei 120k. Diese Asymmetrie ist genau das, was die Wahl zwischen Durchschnitt und Median so wichtig macht.

Häufiger Irrtum

"Ein Datensatz ist objektive Realität." Nein. Jeder Datensatz ist das Ergebnis eines Erhebungsprozesses — wer wurde befragt, wie wurde gemessen, welche Werte wurden ausgeschlossen. Dieselbe Grundgesamtheit kann je nach Stichprobenverfahren sehr unterschiedliche Datensätze produzieren. Für KI bedeutet das: Bevor du ein Modell trainierst, musst du verstehen, was deine Daten wirklich repräsentieren.

Der Durchschnitt — Der Schwerpunkt

Arithmetischer Durchschnitt (Mean)

AnalogieDefinition
Stell dir eine Wippe mit neun gleich schweren Gewichten vor. Die Gewichte liegen an Positionen, die den Gehaltswerten entsprechen (32, 35, ... 120). Der Punkt, an dem die Wippe weder nach links noch nach rechts kippt, ist der Durchschnitt. Das Gewicht bei 120 liegt weit rechts und zieht den Gleichgewichtspunkt in seine Richtung, obwohl die meisten Gewichte zwischen 32 und 55 liegen.

Die Wippen-Analogie bricht an einer Stelle: Eine physische Wippe kippt irgendwann herunter, während ein Datensatz beliebig extreme Werte enthalten kann, die den Durchschnitt ohne natürliche Grenze verschieben. Genau darin liegt die Verwundbarkeit des Durchschnitts.

Berechnung Schritt für Schritt

1
Alle Werte auflisten 32 + 35 + 38 + 40 + 42 + 45 + 48 + 55 + 120
2
Summe bilden = 455
3
Durch Anzahl teilen 455 / 9
4
Ergebnis interpretieren ≈ 50,6 Tausend Euro — aber kein einziger Angestellter verdient so viel!

Acht von neun Angestellten verdienen weniger als der Durchschnitt. Der einzige Wert von 120k zieht den Durchschnitt weg vom Cluster. Genau das passiert auch bei nationalen Einkommensstatistiken.

~55.600 €
Durchschnittseinkommen Deutschland (2024) Bruttojahresgehalt Vollzeitbeschäftigter — durch hohe Gehälter nach oben verzerrt
~52.000 €
Medianeinkommen Deutschland (2024) Die Hälfte verdient mehr, die Hälfte weniger — näher am "typischen" Gehalt

Python: Durchschnitt berechnen

gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]
mean = sum(gehaelter) / len(gehaelter)  # 50.555...

# Oder mit der Standardbibliothek:
import statistics
mean = statistics.mean(gehaelter)      # 50.555...

Häufiger Irrtum

"Der Durchschnitt beschreibt immer den typischen Wert." Nur bei ungefähr symmetrischen Verteilungen. Bei schiefen Daten (Einkommen, Immobilienpreise, API-Antwortzeiten unter Last) kann der Durchschnitt weit von dem entfernt sein, was ein "typischer" Datenpunkt wirklich ist. Das Statistische Bundesamt weist deshalb zunehmend den Median neben dem Durchschnitt aus.

Der Median — Die ausreißersichere Mitte

Median

AnalogieDefinition
Stell dir neun Personen nach Körpergröße sortiert in einer Reihe vor. Die Person an Position 5 hat die Median-Größe. Jetzt ersetzt du die größte Person durch einen 3-Meter-Basketballspieler. Die Person an Position 5 hat sich nicht verändert — der Median ist identisch. Der Durchschnitt der Körpergröße ist dagegen nach oben gesprungen.

Die Analogie bricht bei großen Datensätzen: Bei Millionen von Datenpunkten kannst du sie nicht "aufstellen" — du brauchst Sortieralgorithmen, die O(n log n) Zeit kosten. Hier zahlt sich dein Wissen aus Pfad I.A über Sortierung und Komplexität aus.

Durchschnitt (Mean)

Normal: ≈ 50,6k € | Extrem (120k → 1 Mio.): ≈ 148.333 € — Explodiert mit Ausreißern. Jeder Wert zieht am Ergebnis.

Median

Normal: 42k € | Extrem (120k → 1 Mio.): 42k € — Unverändert! Nur die Position zählt, nicht die Größe der Ausreißer.

Wenn der Durchschnitt lügt

Immobilienpreise, App-Downloadstatistiken, Klickzahlen, Antwortzeiten unter Last — überall dort, wo wenige extreme Werte die Masse dominieren, zeichnet der Durchschnitt ein verzerrtes Bild. In der Praxis: Wenn Durchschnitt und Median stark voneinander abweichen, ist das ein Warnsignal für Ausreißer oder schiefe Verteilungen — und der Median beschreibt das "Typische" ehrlicher.

Python: Der Divergenz-Test

import statistics

gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]
mean   = statistics.mean(gehaelter)    # ≈ 50.6
median = statistics.median(gehaelter)  # 42.0

# Die Lücke verrät die Schiefe:
print(f"Mean: {mean:.1f}, Median: {median}")
# Mean > Median → rechtsschief (Ausreißer zieht nach oben)

# Ersetze CEO-Gehalt durch 1.000 (= 1 Mio. €):
gehaelter_extrem = [32, 35, 38, 40, 42, 45, 48, 55, 1_000]
print(statistics.mean(gehaelter_extrem))    # ≈ 148.3
print(statistics.median(gehaelter_extrem))  # 42 — unverändert!

In der KI-Praxis beeinflusst die Wahl zwischen Durchschnitt und Median direkt die Verlustfunktion: Mean Squared Error (MSE) optimiert auf den Durchschnitt, Mean Absolute Error (MAE) auf den Median — auch wenn "Mean" im Namen steht, konvergiert die MAE-Optimierung mathematisch gegen den Median. MSE bestraft große Fehler überproportional — gut für symmetrische Daten, schlecht wenn Ausreißer das Training dominieren. Bei der Datenvorverarbeitung werden fehlende Werte oft mit dem Median statt dem Durchschnitt imputiert, weil der Median robuster gegenüber Ausreißern ist. Und bei der Evaluation: Wenn dein Modell einen niedrigen MSE, aber einen hohen MAE hat, deuten Ausreißer in deinen Vorhersagen auf ein Problem hin.

Häufiger Irrtum

"Durchschnitt und Median sind praktisch dasselbe." Bei symmetrischen, sauberen Daten ja. Aber bei schiefen Verteilungen (Einkommen, Immobilienpreise, App-Antwortzeiten, Klickzahlen) können sie dramatisch auseinanderliegen. In der KI betrifft das deine Wahl der Verlustfunktion: MSE nutzt den Durchschnitt, MAE den Median. Falsch gewählt, optimiert dein Modell auf die falsche "Mitte".

Interaktiv: Lagemaße berechnen

Du hast Durchschnitt, Median und Modus kennengelernt. Gib eigene Datenpunkte ein und beobachte live, wie sich die drei Lagemaße verändern. Probiere den Ausreißer-Datensatz — und sieh, wie ein einziger Extremwert den Durchschnitt verschiebt, während der Median stabil bleibt.

Beispiel-Datensätze:
6.14Durchschnitt
6Median
8Modus
7Anzahl
43Summe
Sortiert:3, 4, 5, 6, 8, 8, 9

Zusammenfassung

Die drei wichtigsten Erkenntnisse

  1. Ein Datensatz ist eine strukturierte Stichprobe — nicht die objektive Realität. Verstehe immer zuerst, was deine Daten repräsentieren, bevor du sie zusammenfasst.
  2. Der Durchschnitt ist der Schwerpunkt, an dem jeder Wert zieht. Ein einziger Ausreißer kann ihn weit vom "Typischen" wegziehen.
  3. Der Median ist die ausreißersichere Mitte: Wenn er und der Durchschnitt auseinanderliegen, passiert etwas Interessantes in deinen Daten — Ausreißer, Schiefe oder eine Geschichte, die es wert ist, untersucht zu werden.

Quiz: Lageparameter

Frage 1 / 4
Noch offen

Was ist der Unterschied zwischen Durchschnitt und Median?

Wählen Sie eine Antwort
Auflösung: 1) B · 2) B · 3) C · 4) B

Checkpoint

Lernziele

  • Was ist der Unterschied zwischen einem Datenpunkt, einem Merkmal (Feature), einer Stichprobe und der Grundgesamtheit? Wie würdest du diese Begriffe in Python-Datenstrukturen (Listen, Dictionaries) abbilden?
  • Warum kann das "Durchschnittseinkommen" eines Landes ein verzerrtes Bild der typischen Einkommenssituation liefern? Welche Rolle spielen dabei Ausreißer wie sehr hohe Managergehälter?
  • In welcher Art von Datensituation würdest du den Median statt des Durchschnitts bevorzugen? Wie kannst du in Python beide Werte schnell vergleichen, um Ausreißer oder Schiefe zu erkennen?