Streuung von Daten

Du kennst den Durchschnitt — aber der Durchschnitt allein verrät nicht, wie weit die Daten tatsächlich streuen. Zwei Datensätze mit dem gleichen Mittelwert können völlig unterschiedlich aussehen: einer eng gebündelt, der andere weit gestreut.

Streuungsmaße fangen diese verborgene Dimension ein. Dieser Artikel führt durch drei immer präzisere Werkzeuge: Spannweite (schnell, aber grob), Varianz (präzise, aber in quadrierten Einheiten) und Standardabweichung (der Goldstandard, der dieselbe Sprache spricht wie die Daten).

Spannweite — Das schnelle Streuungsmaß

Berlin im Juli: zwischen 8 °C und 38 °C. Technisch korrekt — ein kalter Regentag brachte 8 °C, eine Hitzewelle erreichte 38 °C. Aber die meisten Tage liegen zwischen 20 °C und 28 °C. Die Spannweite zeigt nur die Extreme und versteckt das typische Cluster.

Beispiel

Beim Wetter hat man Erfahrung, um die Spannweite einzuordnen. Bei einem unbekannten Datensatz (ein neuer Sensor, ein neuer Markt) fehlt diese Intuition. Die Analogie modelliert auch nicht, wie die Daten zwischen den Extremen verteilt sind.

Analogie:

Berlin im Juli: zwischen 8 °C und 38 °C. Technisch korrekt — ein kalter Regentag brachte 8 °C, eine Hitzewelle erreichte 38 °C. Aber die meisten Tage liegen zwischen 20 °C und 28 °C. Die Spannweite zeigt nur die Extreme und versteckt das typische Cluster.

Beispiel

Beim Wetter hat man Erfahrung, um die Spannweite einzuordnen. Bei einem unbekannten Datensatz (ein neuer Sensor, ein neuer Markt) fehlt diese Intuition. Die Analogie modelliert auch nicht, wie die Daten zwischen den Extremen verteilt sind.

Definition:

Spannweite = Maximum - Minimum. Sie erfasst die gesamte Bandbreite eines Datensatzes in einer einzigen Subtraktion. Stärke: sofort berechenbar, gibt ein erstes Gefühl für die Größenordnung. Schwäche: sie hängt nur von zwei Extremwerten ab und ignoriert alle Daten dazwischen. Ein einziger Ausreißer kann die Spannweite aufblähen, ohne das typische Verhalten der Daten zu ändern.

Beispiel: Zwei Klassen, gleicher Durchschnitt

Klasse A: [40, 42, 45, 48, 50, 52, 55, 58, 60] — Spannweite 20, Durchschnitt ~50. Klasse B: [10, 45, 48, 49, 50, 51, 52, 55, 90] — Spannweite 80, Durchschnitt ~50. Klasse B wirkt viermal stärker gestreut, aber die meisten Schüler schneiden fast identisch wie in A ab — nur zwei Ausreißer (10 und 90) treiben die Spannweite hoch.

Klasse A vs. Klasse B

Klasse B (Ausreißer) Spannweite 80 · Zwei Extreme (10, 90) · Kern ebenfalls bei 45-55

Klasse A (eng) Spannweite 20 · Alle Werte zwischen 40 und 60 · Gleichmäßig verteilt

Mittelwert und Streuung sind unabhängige Eigenschaften. [0, 0, 0, 100] und [24, 25, 25, 26] haben beide den Mittelwert 25, aber völlig unterschiedliche Streuung. Nur Streuungsmaße zeigen den Unterschied.

Varianz — Mittlere quadratische Abweichung

Stell dir Zielschießen vor. Der Mittelwert ist die Mitte deines Trefferclusters. Die Varianz misst, wie weit deine Schüsse vom Zentrum streuen — aber statt der geraden Entfernung quadrierst du jede Abweichung. Ein Schuss 3 cm daneben trägt 9 zur Varianz bei; ein Schuss 1 cm daneben nur 1. Ein paar wilde Fehlschüsse dominieren das Ergebnis.

Beispiel

Beim echten Schießen misst man die gerade Entfernung; die Varianz quadriert die Entfernung, wodurch sich die Einheit ändert. Außerdem ist Zielschießen zweidimensional, die Varianz hier aber eindimensional.

Analogie:

Stell dir Zielschießen vor. Der Mittelwert ist die Mitte deines Trefferclusters. Die Varianz misst, wie weit deine Schüsse vom Zentrum streuen — aber statt der geraden Entfernung quadrierst du jede Abweichung. Ein Schuss 3 cm daneben trägt 9 zur Varianz bei; ein Schuss 1 cm daneben nur 1. Ein paar wilde Fehlschüsse dominieren das Ergebnis.

Beispiel

Beim echten Schießen misst man die gerade Entfernung; die Varianz quadriert die Entfernung, wodurch sich die Einheit ändert. Außerdem ist Zielschießen zweidimensional, die Varianz hier aber eindimensional.

Definition:

Die Varianz quantifiziert Streuung als den Durchschnitt der quadrierten Abweichungen vom Mittelwert. Vier Schritte: (1) Mittelwert berechnen, (2) Mittelwert von jedem Wert abziehen, (3) jede Abweichung quadrieren, (4) Quadrate mitteln. Das Quadrieren verhindert, dass sich positive und negative Abweichungen gegenseitig aufheben (die Summe der Abweichungen ist immer 0). Nachteil: Varianz ist in quadrierten Einheiten (Minuten², wenn die Daten in Minuten sind).

Varianz in 4 Schritten

1

Mittelwert berechnen (alle Werte addieren, durch Anzahl teilen)

2

Abweichungen berechnen (jeden Wert minus Mittelwert)

3

Jede Abweichung quadrieren (negative werden positiv, große werden verstärkt)

4

Quadrate mitteln (Summe durch n für Population, durch n-1 für Stichprobe)

Durchgerechnetes Beispiel

Daten: [2, 4, 4, 4, 5, 5, 7, 9]   Mittelwert = 40/8 = 5

Abweichungen:  -3, -1, -1, -1,  0,  0, +2, +4   (Summe = 0)
Quadriert:      9,  1,  1,  1,  0,  0,  4, 16   (Summe = 32)

Populations-Varianz: 32/8 = 4
Stichproben-Varianz: 32/7 = 4,57

Python: statistics-Modul

import statistics

daten = [2, 4, 4, 4, 5, 5, 7, 9]

statistics.pvariance(daten)  # → 4.0    (Population)
statistics.variance(daten)   # → 4.571  (Stichprobe, n-1)

Für eine vollständige Population: ja. Für eine Stichprobe aus einer größeren Population: durch n-1 teilen (Bessel-Korrektur). Der Stichproben-Mittelwert wird aus denselben Daten berechnet, wodurch die Abweichungen künstlich klein werden — n-1 kompensiert diesen verlorenen Freiheitsgrad.

Warum n-1 statt n? Wenn du den Mittelwert aus deiner Stichprobe berechnest und dann die Abweichungen von diesem Mittelwert misst, sind die Abweichungen systematisch zu klein. Der Grund: Der Stichproben-Mittelwert liegt per Definition zentral in der Stichprobe und minimiert die Abstände — er unterschätzt dadurch die wahre Streuung in der Population. Die Division durch n-1 (statt n) korrigiert diese Verzerrung. Die Zahl n-1 heißt "Freiheitsgrade": Wenn du n Werte und deren Mittelwert kennst, ist der letzte Wert nicht mehr frei wählbar.

Standardabweichung — Varianz in verständlichen Einheiten

Wartezeit am Schalter: Durchschnitt 10 Minuten, Standardabweichung 1 Minute — du kannst mit 9 bis 11 Minuten rechnen. Durchschnitt 10 Minuten, Standardabweichung 6 Minuten — manche Tage fast sofort, andere 16+ Minuten. Gleicher Mittelwert, völlig anderes Erlebnis. Die Standardabweichung übersetzt die abstrakte Varianz in eine konkrete Antwort: Wie stark schwankt es?

Beispiel

Die 68-95-99,7-Regel gilt exakt nur für Normalverteilungen. Bei schiefen Daten (Einkommen, Web-Traffic) können viele Werte außerhalb von 2 Standardabweichungen auf einer Seite liegen.

Analogie:

Wartezeit am Schalter: Durchschnitt 10 Minuten, Standardabweichung 1 Minute — du kannst mit 9 bis 11 Minuten rechnen. Durchschnitt 10 Minuten, Standardabweichung 6 Minuten — manche Tage fast sofort, andere 16+ Minuten. Gleicher Mittelwert, völlig anderes Erlebnis. Die Standardabweichung übersetzt die abstrakte Varianz in eine konkrete Antwort: Wie stark schwankt es?

Beispiel

Die 68-95-99,7-Regel gilt exakt nur für Normalverteilungen. Bei schiefen Daten (Einkommen, Web-Traffic) können viele Werte außerhalb von 2 Standardabweichungen auf einer Seite liegen.

Definition:

Standardabweichung = Quadratwurzel der Varianz. Sie stellt die ursprüngliche Einheit wieder her (Minuten, Euro, Grad) und beschreibt den "typischen Abstand" eines Datenpunkts vom Mittelwert. Für annähernd normalverteilte Daten gilt die 68-95-99,7-Regel: ~68 % der Werte liegen innerhalb von 1 Standardabweichung, ~95 % innerhalb von 2, ~99,7 % innerhalb von 3.

Berechnung aus dem Varianz-Beispiel

Varianz = 4, also Standardabweichung = Wurzel(4) = 2. Daten [2, 4, 4, 4, 5, 5, 7, 9] mit Mittelwert 5. Das Intervall [5-2, 5+2] = [3, 7] enthält 6 von 8 Werten (75 %) — nahe an den erwarteten 68 % für normalverteilte Daten.

Die 68-95-99,7-Regel

1 Standardabw.

2 Standardabw.

3 Standardabw.

Beispiel: Temperaturvergleich

Mittelwert 20 °C, Standardabweichung 2 °C → 68 % der Tage zwischen 18 °C und 22 °C. Gleicher Mittelwert mit Standardabweichung 8 °C → 68 % zwischen 12 °C und 28 °C — ein grundlegend anderes Klima.

Varianz ist in quadrierten Einheiten; Standardabweichung ist in den ursprünglichen Einheiten. Sie messen das gleiche Konzept (Streuung) auf verschiedenen Skalen. In Berichten und Interpretationen wird fast immer die Standardabweichung verwendet, weil sie direkt mit den Daten vergleichbar ist.

In Machine-Learning-Pipelines werden Features oft z-normalisiert: z = (x - Mittelwert) / Standardabweichung. Das Ergebnis hat Mittelwert 0 und Standardabweichung 1. Warum? Algorithmen wie k-Nearest Neighbors oder Gradient Descent behandeln alle Features gleich — ohne Normalisierung dominieren Features mit großen Zahlenwerten.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# Jedes Feature hat jetzt Mittelwert 0, Std 1

Spannweite vs. Standardabweichung

Spannweite (Range)

Maximum minus Minimum. Sofort berechenbar. Zeigt nur die Extreme. Ein Ausreißer kann alles verzerren. Gut als erster Überblick.

Standardabweichung

Wurzel der mittleren quadratischen Abweichung. In den Originaleinheiten. Berücksichtigt alle Datenpunkte. Der Standard in Statistik und ML.

Interaktiv: Varianz & Standardabweichung berechnen

Du hast Spannweite, Varianz und Standardabweichung kennengelernt. Gib eigene Datenpunkte ein und beobachte live, wie sich die Streuungsmaße verändern. Vergleiche den engen Datensatz mit dem weiten — und sieh, wie ein Ausreißer die Varianz explodieren lässt.

Datenpunkte (kommagetrennt)

Beispiel-Datensätze:

6.14Mittelwert

4.41Varianz

2.10Standardabweichung

7Anzahl

6Spannweite

Sortiert:3, 4, 5, 6, 8, 8, 9

Spannweite (max - min) ist schnell, aber irreführend — ein einziger Ausreißer kann sie aufblähen, während 99 % der Daten eng zusammenliegen.
Varianz mittelt die quadrierten Abweichungen vom Mittelwert — das Quadrieren sorgt dafür, dass große Abweichungen stärker zählen und positive/negative sich nicht aufheben.
Standardabweichung = Wurzel(Varianz), stellt die Originaleinheit wieder her — kombiniere sie mit dem Mittelwert, um zu sagen: Die meisten Werte liegen innerhalb von 1 Standardabweichung (68 % bei Normalverteilung).

Warum ist die Spannweite bei Ausreißern irreführend?

Die Spannweite ist immer null

Ein einziger Extremwert kann die Spannweite aufblähen, obwohl 99 % der Daten eng zusammenliegen

Die Spannweite nutzt quadrierte Einheiten

Die Spannweite ignoriert das Maximum

1. Warum ist die Spannweite bei Ausreißern irreführend?

☐ A) Die Spannweite ist immer null
☐ B) Ein einziger Extremwert kann die Spannweite aufblähen, obwohl 99 % der Daten eng zusammenliegen
☐ C) Die Spannweite nutzt quadrierte Einheiten
☐ D) Die Spannweite ignoriert das Maximum

2. Temperaturdaten: Mittelwert 20 °C, Standardabweichung 3 °C. In welchem Bereich liegen ungefähr 68 % der Werte (bei Normalverteilung)?

☐ A) 14 °C bis 26 °C
☐ B) 17 °C bis 23 °C
☐ C) 20 °C bis 23 °C
☐ D) 11 °C bis 29 °C

3. Du berechnest die Varianz eines Datensatzes: 16. Was ist die Standardabweichung?

☐ A) 16
☐ B) 4
☐ C) 256
☐ D) 8

4. Zwei Fertigungslinien produzieren Schrauben. Linie A: Mittelwert 50 mm, Std 0,1 mm. Linie B: Mittelwert 50 mm, Std 2 mm. Welche Linie produziert wahrscheinlich mehr fehlerhafte Schrauben?

☐ A) Linie A — kleinere Abweichung bedeutet mehr Fehler
☐ B) Linie B — größere Standardabweichung bedeutet, dass mehr Schrauben außerhalb der Toleranz liegen
☐ C) Beide produzieren gleich viele Fehler
☐ D) Das kann man nicht bestimmen

Auflösung: 1) B · 2) B · 3) B · 4) B

Lernziele

Ich kann anhand eines Datenbeispiels erklären, warum der Mittelwert allein nicht ausreicht, um die Zuverlässigkeit eines Sensors zu beurteilen.
Ich kann die Varianz eines kleinen Datensatzes Schritt für Schritt manuell berechnen.
Ich kann die 68-95-99,7-Regel anwenden, um vorherzusagen, wie viele produzierte Bauteile innerhalb einer bestimmten Toleranz liegen.

Streuung von Daten

Spannweite — Das schnelle Streuungsmaß

Spannweite (Range)

Beispiel

Analogie:

Beispiel

Definition:

Beispiel: Zwei Klassen, gleicher Durchschnitt

Klasse A vs. Klasse B

Irrtum: Kleiner Mittelwert = kleine Streuung

Varianz — Mittlere quadratische Abweichung

Varianz

Beispiel

Analogie:

Beispiel

Definition:

Varianz in 4 Schritten

Durchgerechnetes Beispiel

Python: statistics-Modul

Irrtum: Immer durch n teilen

Deep Dive: Bessel-Korrektur

Standardabweichung — Varianz in verständlichen Einheiten

Standardabweichung

Beispiel

Analogie:

Beispiel

Definition:

Berechnung aus dem Varianz-Beispiel

Die 68-95-99,7-Regel

Beispiel: Temperaturvergleich

Irrtum: Varianz und Standardabweichung sind dasselbe

Deep Dive: Standardisierung im ML

Spannweite vs. Standardabweichung

Interaktiv: Varianz & Standardabweichung berechnen

Das Wichtigste auf einen Blick

Quiz: Streuungsmaße

Warum ist die Spannweite bei Ausreißern irreführend?

Lernziele

Spannweite — Das schnelle Streuungsmaß

Spannweite (Range)

Beispiel

Analogie:

Beispiel

Definition:

Beispiel: Zwei Klassen, gleicher Durchschnitt

Klasse A vs. Klasse B

Irrtum: Kleiner Mittelwert = kleine Streuung

Varianz — Mittlere quadratische Abweichung

Varianz

Beispiel

Analogie:

Beispiel

Definition:

Varianz in 4 Schritten

Durchgerechnetes Beispiel

Python: statistics-Modul

Irrtum: Immer durch n teilen

Deep Dive: Bessel-Korrektur

Standardabweichung — Varianz in verständlichen Einheiten

Standardabweichung

Beispiel

Analogie:

Beispiel

Definition:

Berechnung aus dem Varianz-Beispiel

Die 68-95-99,7-Regel

Beispiel: Temperaturvergleich

Irrtum: Varianz und Standardabweichung sind dasselbe

Deep Dive: Standardisierung im ML

Spannweite vs. Standardabweichung

Interaktiv: Varianz & Standardabweichung berechnen

Das Wichtigste auf einen Blick

Quiz: Streuungsmaße

Warum ist die Spannweite bei Ausreißern irreführend?

Lernziele

Verwandte Inhalte

Artikel

Lageparameter: Wo ist die Mitte?

Verteilungen: Die Form der Daten

Korrelation vs. Kausalität

Wahrscheinlichkeit & Erwartungswert

Glossar

Timeline