Lageparameter: Wo ist die Mitte?
Drei Wege, die "Mitte" der Daten zu finden — und die unterhaltsame Frage, welcher davon gerade unehrlich ist.
"Das Durchschnittsgehalt in diesem Unternehmen beträgt 50.600 Euro." Klingt vernünftig — bis du erfährst, dass die meisten Angestellten unter 45.000 Euro verdienen und ein einziges Managergehalt den Wert nach oben zieht. Ein einziges Wort kann die Wahrheit verschleiern: "Durchschnitt."
Durchschnitt und Median beanspruchen beide, die "Mitte" eines Datensatzes zu beschreiben. Aber sie beantworten grundlegend verschiedene Fragen — und die falsche Wahl kann dich in die Irre führen, wenn es darum geht, was "typisch" ist. In diesem Artikel lernst du, was ein Datensatz ist, wie der Durchschnitt als Schwerpunkt funktioniert, und warum der Median oft die ehrlichere Antwort gibt.
Der Datensatz — Vom Einzelwert zur Sammlung
Datensatz
In tabellarischen Daten entspricht ein Merkmal einer Spalte und ein Datenpunkt einer Zeile. In Python kannst du einen Datensatz als Liste (ein Merkmal) oder als Liste von Dictionaries (mehrere Merkmale) darstellen.
Python: Liste vs. Dictionary
Für den Rest dieses Artikels betrachten wir neun Gehälter in Tausend Euro: [32, 35, 38, 40, 42, 45, 48, 55, 120]. Acht Angestellte clustern zwischen 32k und 55k. Ein Ausreißer sitzt bei 120k. Diese Asymmetrie ist genau das, was die Wahl zwischen Durchschnitt und Median so wichtig macht.
Häufiger Irrtum
Der Durchschnitt — Der Schwerpunkt
Arithmetischer Durchschnitt (Mean)
Die Wippen-Analogie bricht an einer Stelle: Eine physische Wippe kippt irgendwann herunter, während ein Datensatz beliebig extreme Werte enthalten kann, die den Durchschnitt ohne natürliche Grenze verschieben. Genau darin liegt die Verwundbarkeit des Durchschnitts.
Berechnung Schritt für Schritt
Python: Durchschnitt berechnen
Häufiger Irrtum
Der Median — Die ausreißersichere Mitte
Median
Die Analogie bricht bei großen Datensätzen: Bei Millionen von Datenpunkten kannst du sie nicht "aufstellen" — du brauchst Sortieralgorithmen, die O(n log n) Zeit kosten. Hier zahlt sich dein Wissen aus Pfad I.A über Sortierung und Komplexität aus.
Normal: ≈ 50,6k € | Extrem (120k → 1 Mio.): ≈ 148.333 € — Explodiert mit Ausreißern. Jeder Wert zieht am Ergebnis.
Normal: 42k € | Extrem (120k → 1 Mio.): 42k € — Unverändert! Nur die Position zählt, nicht die Größe der Ausreißer.
Wenn der Durchschnitt lügt
Python: Der Divergenz-Test
Deep Dive: KI-Bezug
Häufiger Irrtum
Interaktiv: Lagemaße berechnen
Du hast Durchschnitt, Median und Modus kennengelernt. Gib eigene Datenpunkte ein und beobachte live, wie sich die drei Lagemaße verändern. Probiere den Ausreißer-Datensatz — und sieh, wie ein einziger Extremwert den Durchschnitt verschiebt, während der Median stabil bleibt.
Zusammenfassung
Die drei wichtigsten Erkenntnisse
Quiz: Lageparameter
Checkpoint
Lernziele
- Was ist der Unterschied zwischen einem Datenpunkt, einem Merkmal (Feature), einer Stichprobe und der Grundgesamtheit? Wie würdest du diese Begriffe in Python-Datenstrukturen (Listen, Dictionaries) abbilden?
- Warum kann das "Durchschnittseinkommen" eines Landes ein verzerrtes Bild der typischen Einkommenssituation liefern? Welche Rolle spielen dabei Ausreißer wie sehr hohe Managergehälter?
- In welcher Art von Datensituation würdest du den Median statt des Durchschnitts bevorzugen? Wie kannst du in Python beide Werte schnell vergleichen, um Ausreißer oder Schiefe zu erkennen?