Lageparameter: Wo ist die Mitte?

"Das Durchschnittsgehalt in diesem Unternehmen beträgt 50.600 Euro." Klingt vernünftig — bis du erfährst, dass die meisten Angestellten unter 45.000 Euro verdienen und ein einziges Managergehalt den Wert nach oben zieht. Ein einziges Wort kann die Wahrheit verschleiern: "Durchschnitt."

Durchschnitt und Median beanspruchen beide, die "Mitte" eines Datensatzes zu beschreiben. Aber sie beantworten grundlegend verschiedene Fragen — und die falsche Wahl kann dich in die Irre führen, wenn es darum geht, was "typisch" ist. In diesem Artikel lernst du, was ein Datensatz ist, wie der Durchschnitt als Schwerpunkt funktioniert, und warum der Median oft die ehrlichere Antwort gibt.

Der Datensatz — Vom Einzelwert zur Sammlung

Stell dir eine Klassenarbeit vor: 28 Schüler schreiben einen Mathetest. Jede Note ist ein Datenpunkt. Das Merkmal heißt "Note". Die 28 Schüler bilden deine Stichprobe. Alle Matheschüler in Deutschland wären die Grundgesamtheit. Die Lehrerin kann nicht alle Schüler im Land testen — sie arbeitet mit ihrer Stichprobe von 28.

Analogie:

Stell dir eine Klassenarbeit vor: 28 Schüler schreiben einen Mathetest. Jede Note ist ein Datenpunkt. Das Merkmal heißt "Note". Die 28 Schüler bilden deine Stichprobe. Alle Matheschüler in Deutschland wären die Grundgesamtheit. Die Lehrerin kann nicht alle Schüler im Land testen — sie arbeitet mit ihrer Stichprobe von 28.

Definition:

Ein Datensatz ist eine strukturierte Sammlung von Beobachtungen. Jede einzelne Beobachtung ist ein Datenpunkt (z.B. ein Gehalt). Die gemessene Eigenschaft heißt Merkmal oder Feature (z.B. "Gehalt", "Alter"). Die Grundgesamtheit umfasst alle Objekte, über die du etwas wissen möchtest. Die Stichprobe ist die Teilmenge, die du tatsächlich beobachtest. Jeder Lageparameter ist daher eine Schätzung, kein Grundwahrheit.

In tabellarischen Daten entspricht ein Merkmal einer Spalte und ein Datenpunkt einer Zeile. In Python kannst du einen Datensatz als Liste (ein Merkmal) oder als Liste von Dictionaries (mehrere Merkmale) darstellen.

# Eindimensional: ein Merkmal
gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]

# Mehrdimensional: mehrere Merkmale pro Datenpunkt
angestellte = [
    {"name": "Anna",  "gehalt": 32, "abt": "Support"},
    {"name": "Ben",   "gehalt": 120, "abt": "Management"},
    ...
]

Für den Rest dieses Artikels betrachten wir neun Gehälter in Tausend Euro: [32, 35, 38, 40, 42, 45, 48, 55, 120]. Acht Angestellte clustern zwischen 32k und 55k. Ein Ausreißer sitzt bei 120k. Diese Asymmetrie ist genau das, was die Wahl zwischen Durchschnitt und Median so wichtig macht.

"Ein Datensatz ist objektive Realität." Nein. Jeder Datensatz ist das Ergebnis eines Erhebungsprozesses — wer wurde befragt, wie wurde gemessen, welche Werte wurden ausgeschlossen. Dieselbe Grundgesamtheit kann je nach Stichprobenverfahren sehr unterschiedliche Datensätze produzieren. Für KI bedeutet das: Bevor du ein Modell trainierst, musst du verstehen, was deine Daten wirklich repräsentieren.

Der Durchschnitt — Der Schwerpunkt

Stell dir eine Wippe mit neun gleich schweren Gewichten vor. Die Gewichte liegen an Positionen, die den Gehaltswerten entsprechen (32, 35, ... 120). Der Punkt, an dem die Wippe weder nach links noch nach rechts kippt, ist der Durchschnitt. Das Gewicht bei 120 liegt weit rechts und zieht den Gleichgewichtspunkt in seine Richtung, obwohl die meisten Gewichte zwischen 32 und 55 liegen.

Analogie:

Stell dir eine Wippe mit neun gleich schweren Gewichten vor. Die Gewichte liegen an Positionen, die den Gehaltswerten entsprechen (32, 35, ... 120). Der Punkt, an dem die Wippe weder nach links noch nach rechts kippt, ist der Durchschnitt. Das Gewicht bei 120 liegt weit rechts und zieht den Gleichgewichtspunkt in seine Richtung, obwohl die meisten Gewichte zwischen 32 und 55 liegen.

Definition:

Der arithmetische Durchschnitt ist die Summe aller Werte geteilt durch ihre Anzahl. Für Werte x1, x2, ..., xn gilt: Durchschnitt = (x1 + x2 + ... + xn) / n. Jeder einzelne Wert trägt proportional bei — es gibt keine "ignorierten" Datenpunkte. Das macht den Durchschnitt sehr informativ bei symmetrischen Daten, aber irreführend bei Ausreißern.

Die Wippen-Analogie bricht an einer Stelle: Eine physische Wippe kippt irgendwann herunter, während ein Datensatz beliebig extreme Werte enthalten kann, die den Durchschnitt ohne natürliche Grenze verschieben. Genau darin liegt die Verwundbarkeit des Durchschnitts.

1

Alle Werte auflisten 32 + 35 + 38 + 40 + 42 + 45 + 48 + 55 + 120

2

Summe bilden = 455

3

Durch Anzahl teilen 455 / 9

4

Ergebnis interpretieren ≈ 50,6 Tausend Euro — aber kein einziger Angestellter verdient so viel!

Acht von neun Angestellten verdienen weniger als der Durchschnitt. Der einzige Wert von 120k zieht den Durchschnitt weg vom Cluster. Genau das passiert auch bei nationalen Einkommensstatistiken.

~55.600 €

Durchschnittseinkommen Deutschland (2024) Bruttojahresgehalt Vollzeitbeschäftigter — durch hohe Gehälter nach oben verzerrt

~52.000 €

Medianeinkommen Deutschland (2024) Die Hälfte verdient mehr, die Hälfte weniger — näher am "typischen" Gehalt

gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]
mean = sum(gehaelter) / len(gehaelter)  # 50.555...

# Oder mit der Standardbibliothek:
import statistics
mean = statistics.mean(gehaelter)      # 50.555...

"Der Durchschnitt beschreibt immer den typischen Wert." Nur bei ungefähr symmetrischen Verteilungen. Bei schiefen Daten (Einkommen, Immobilienpreise, API-Antwortzeiten unter Last) kann der Durchschnitt weit von dem entfernt sein, was ein "typischer" Datenpunkt wirklich ist. Das Statistische Bundesamt weist deshalb zunehmend den Median neben dem Durchschnitt aus.

Der Median — Die ausreißersichere Mitte

Stell dir neun Personen nach Körpergröße sortiert in einer Reihe vor. Die Person an Position 5 hat die Median-Größe. Jetzt ersetzt du die größte Person durch einen 3-Meter-Basketballspieler. Die Person an Position 5 hat sich nicht verändert — der Median ist identisch. Der Durchschnitt der Körpergröße ist dagegen nach oben gesprungen.

Analogie:

Stell dir neun Personen nach Körpergröße sortiert in einer Reihe vor. Die Person an Position 5 hat die Median-Größe. Jetzt ersetzt du die größte Person durch einen 3-Meter-Basketballspieler. Die Person an Position 5 hat sich nicht verändert — der Median ist identisch. Der Durchschnitt der Körpergröße ist dagegen nach oben gesprungen.

Definition:

Der Median ist der mittlere Wert eines sortierten Datensatzes. Bei ungerader Anzahl ist es der Wert in der Mitte, bei gerader Anzahl der Durchschnitt der beiden mittleren Werte. Der Median ist das 50. Perzentil: genau die Hälfte der Daten liegt darunter, die Hälfte darüber. Entscheidend: Der Median hängt nur von der Position ab, nicht von der Größe der Werte.

Die Analogie bricht bei großen Datensätzen: Bei Millionen von Datenpunkten kannst du sie nicht "aufstellen" — du brauchst Sortieralgorithmen, die O(n log n) Zeit kosten. Hier zahlt sich dein Wissen aus Pfad I.A über Sortierung und Komplexität aus.

Durchschnitt (Mean)

Normal: ≈ 50,6k € | Extrem (120k → 1 Mio.): ≈ 148.333 € — Explodiert mit Ausreißern. Jeder Wert zieht am Ergebnis.

Median

Normal: 42k € | Extrem (120k → 1 Mio.): 42k € — Unverändert! Nur die Position zählt, nicht die Größe der Ausreißer.

Immobilienpreise, App-Downloadstatistiken, Klickzahlen, Antwortzeiten unter Last — überall dort, wo wenige extreme Werte die Masse dominieren, zeichnet der Durchschnitt ein verzerrtes Bild. In der Praxis: Wenn Durchschnitt und Median stark voneinander abweichen, ist das ein Warnsignal für Ausreißer oder schiefe Verteilungen — und der Median beschreibt das "Typische" ehrlicher.

import statistics

gehaelter = [32, 35, 38, 40, 42, 45, 48, 55, 120]
mean   = statistics.mean(gehaelter)    # ≈ 50.6
median = statistics.median(gehaelter)  # 42.0

# Die Lücke verrät die Schiefe:
print(f"Mean: {mean:.1f}, Median: {median}")
# Mean > Median → rechtsschief (Ausreißer zieht nach oben)

# Ersetze CEO-Gehalt durch 1.000 (= 1 Mio. €):
gehaelter_extrem = [32, 35, 38, 40, 42, 45, 48, 55, 1_000]
print(statistics.mean(gehaelter_extrem))    # ≈ 148.3
print(statistics.median(gehaelter_extrem))  # 42 — unverändert!

In der KI-Praxis beeinflusst die Wahl zwischen Durchschnitt und Median direkt die Verlustfunktion: Mean Squared Error (MSE) optimiert auf den Durchschnitt, Mean Absolute Error (MAE) auf den Median — auch wenn "Mean" im Namen steht, konvergiert die MAE-Optimierung mathematisch gegen den Median. MSE bestraft große Fehler überproportional — gut für symmetrische Daten, schlecht wenn Ausreißer das Training dominieren. Bei der Datenvorverarbeitung werden fehlende Werte oft mit dem Median statt dem Durchschnitt imputiert, weil der Median robuster gegenüber Ausreißern ist. Und bei der Evaluation: Wenn dein Modell einen niedrigen MSE, aber einen hohen MAE hat, deuten Ausreißer in deinen Vorhersagen auf ein Problem hin.

"Durchschnitt und Median sind praktisch dasselbe." Bei symmetrischen, sauberen Daten ja. Aber bei schiefen Verteilungen (Einkommen, Immobilienpreise, App-Antwortzeiten, Klickzahlen) können sie dramatisch auseinanderliegen. In der KI betrifft das deine Wahl der Verlustfunktion: MSE nutzt den Durchschnitt, MAE den Median. Falsch gewählt, optimiert dein Modell auf die falsche "Mitte".

Interaktiv: Lagemaße berechnen

Du hast Durchschnitt, Median und Modus kennengelernt. Gib eigene Datenpunkte ein und beobachte live, wie sich die drei Lagemaße verändern. Probiere den Ausreißer-Datensatz — und sieh, wie ein einziger Extremwert den Durchschnitt verschiebt, während der Median stabil bleibt.

Datenpunkte (kommagetrennt)

Beispiel-Datensätze:

6.14Durchschnitt

6Median

8Modus

7Anzahl

43Summe

Sortiert:3, 4, 5, 6, 8, 8, 9

Zusammenfassung

Ein Datensatz ist eine strukturierte Stichprobe — nicht die objektive Realität. Verstehe immer zuerst, was deine Daten repräsentieren, bevor du sie zusammenfasst.
Der Durchschnitt ist der Schwerpunkt, an dem jeder Wert zieht. Ein einziger Ausreißer kann ihn weit vom "Typischen" wegziehen.
Der Median ist die ausreißersichere Mitte: Wenn er und der Durchschnitt auseinanderliegen, passiert etwas Interessantes in deinen Daten — Ausreißer, Schiefe oder eine Geschichte, die es wert ist, untersucht zu werden.

Was ist der Unterschied zwischen Durchschnitt und Median?

Sie ergeben immer denselben Wert

Der Durchschnitt ist die Summe geteilt durch die Anzahl; der Median ist der mittlere Wert der sortierten Daten. Ausreißer beeinflussen den Durchschnitt, aber nicht den Median

Der Median ist immer größer als der Durchschnitt

Der Durchschnitt funktioniert nur mit sortierten Daten

1. Was ist der Unterschied zwischen Durchschnitt und Median?

☐ A) Sie ergeben immer denselben Wert
☐ B) Der Durchschnitt ist die Summe geteilt durch die Anzahl; der Median ist der mittlere Wert der sortierten Daten. Ausreißer beeinflussen den Durchschnitt, aber nicht den Median
☐ C) Der Median ist immer größer als der Durchschnitt
☐ D) Der Durchschnitt funktioniert nur mit sortierten Daten

2. Gehälter: [30, 32, 35, 40, 42, 45, 48, 55, 200]. Was passiert mit Durchschnitt und Median, wenn 200 auf 500 steigt?

☐ A) Beide steigen
☐ B) Der Durchschnitt steigt, der Median bleibt gleich
☐ C) Beide bleiben gleich
☐ D) Der Median steigt, der Durchschnitt bleibt gleich

3. Durchschnittseinkommen einer Stadt: 65.000 Euro. Medianeinkommen: 42.000 Euro. Was sagt dir das?

☐ A) Die Daten sind symmetrisch
☐ B) Die meisten Leute verdienen 65.000 Euro
☐ C) Die Verteilung ist rechtsschief — wenige hohe Einkommen ziehen den Durchschnitt nach oben, die meisten verdienen näher am Median
☐ D) Der Median ist falsch berechnet

4. Ein KI-Modell nutzt Mean Squared Error (MSE), ein anderes Mean Absolute Error (MAE). Beide sagen Immobilienpreise vorher, der Datensatz hat Luxus-Ausreißer. Welches Modell trifft den typischen Preis besser?

☐ A) MSE — weil es verbreiteter ist
☐ B) MAE — weil MAE-Optimierung gegen den Median konvergiert, der robust gegen Ausreißer ist
☐ C) Beide liefern dasselbe Ergebnis
☐ D) Keines der Modelle kann mit Ausreißern umgehen

Auflösung: 1) B · 2) B · 3) C · 4) B

Checkpoint

Lernziele

Was ist der Unterschied zwischen einem Datenpunkt, einem Merkmal (Feature), einer Stichprobe und der Grundgesamtheit? Wie würdest du diese Begriffe in Python-Datenstrukturen (Listen, Dictionaries) abbilden?
Warum kann das "Durchschnittseinkommen" eines Landes ein verzerrtes Bild der typischen Einkommenssituation liefern? Welche Rolle spielen dabei Ausreißer wie sehr hohe Managergehälter?
In welcher Art von Datensituation würdest du den Median statt des Durchschnitts bevorzugen? Wie kannst du in Python beide Werte schnell vergleichen, um Ausreißer oder Schiefe zu erkennen?

Lageparameter: Wo ist die Mitte?

Der Datensatz — Vom Einzelwert zur Sammlung

Datensatz

Analogie:

Definition:

Python: Liste vs. Dictionary

Häufiger Irrtum

Der Durchschnitt — Der Schwerpunkt

Arithmetischer Durchschnitt (Mean)

Analogie:

Definition:

Berechnung Schritt für Schritt

Python: Durchschnitt berechnen

Häufiger Irrtum

Der Median — Die ausreißersichere Mitte

Median

Analogie:

Definition:

Wenn der Durchschnitt lügt

Python: Der Divergenz-Test

Deep Dive: KI-Bezug

Häufiger Irrtum

Interaktiv: Lagemaße berechnen

Zusammenfassung

Die drei wichtigsten Erkenntnisse

Quiz: Lageparameter

Was ist der Unterschied zwischen Durchschnitt und Median?

Checkpoint

Lernziele

Der Datensatz — Vom Einzelwert zur Sammlung

Datensatz

Analogie:

Definition:

Python: Liste vs. Dictionary

Häufiger Irrtum

Der Durchschnitt — Der Schwerpunkt

Arithmetischer Durchschnitt (Mean)

Analogie:

Definition:

Berechnung Schritt für Schritt

Python: Durchschnitt berechnen

Häufiger Irrtum

Der Median — Die ausreißersichere Mitte

Median

Analogie:

Definition:

Wenn der Durchschnitt lügt

Python: Der Divergenz-Test

Deep Dive: KI-Bezug

Häufiger Irrtum

Interaktiv: Lagemaße berechnen

Zusammenfassung

Die drei wichtigsten Erkenntnisse

Quiz: Lageparameter

Was ist der Unterschied zwischen Durchschnitt und Median?

Checkpoint

Lernziele

Verwandte Inhalte

Artikel

Streuung von Daten

Verteilungen: Die Form der Daten

Korrelation vs. Kausalität

Datenstrukturen II (Hierarchisch & Vernetzt)

Bayes & Bedingte Wahrscheinlichkeit

Das Rohmaterial: Data Engineering für Machine Learning

Lineare & Logistische Regression

Wie KI ihre Fehler misst: Loss-Funktionen

Wie gut ist dein Modell? Metriken, die wirklich zählen

Wahrscheinlichkeit & Erwartungswert

Demo

K-Means Clustering

Naive Bayes (Klassifikation)

Überwachtes Lernen

Glossar