Quantisierung — Modelle schrumpfen

Modelle schrumpfen für den Hausgebrauch — die Technik, die lokale KI erst praktikabel macht.

Konzepte 10 min Fortgeschritten 22. Juni 2026

Die neuesten Open-Source-Sprachmodelle sind erstaunlich leistungsfähig — aber sie wiegen 14 GB oder mehr. Dein Gaming-Laptop hat vielleicht 8 GB VRAM. Heißt das, lokale KI ist unerreichbar?

Keineswegs. Quantisierung komprimiert diese Modelle, indem sie die Genauigkeit ihrer Milliarden von Gewichten reduziert — Schrumpfung um bis zu 80 %, während der Großteil der Intelligenz erhalten bleibt. Dieser Artikel zeigt dir genau, wie das funktioniert und welches Modell auf deine Maschine passt.

Genauigkeit — Wie viele Bits pro Zahl?

Quantisierung

AnalogieDefinition
Stell dir die Zahl Pi vor. Bei voller Genauigkeit (FP32) speicherst du "3,141592653589" — perfekt für Berechnungen. Bei halber Genauigkeit (FP16) speicherst du "3,14159" — gut genug für fast alles. Bei 4-Bit (INT4) speicherst du nur "3" — eine grobe Näherung, aber immer noch korrekt genug, um zu wissen, dass ein Kreis mit Durchmesser 1 einen Umfang von ungefähr 3 hat.

Anders als beim Runden einer einzelnen Zahl betrifft Quantisierung Milliarden von Gewichten gleichzeitig. Wechselwirkungen zwischen gerundeten Gewichten können Fehler unvorhersehbar verstärken. In der Praxis verteilen moderne Quantisierungsmethoden die Fehler jedoch so gut, dass der Qualitätsverlust minimal bleibt.

FP32 (Full Precision) 32 Bit = 4 Bytes pro Gewicht. 7B-Modell: ~28 GB
FP16 (Half Precision) 16 Bit = 2 Bytes pro Gewicht. 7B-Modell: ~14 GB
INT8 8 Bit = 1 Byte pro Gewicht. 7B-Modell: ~7 GB
INT4 4 Bit = 0,5 Bytes pro Gewicht. 7B-Modell: ~3,5 GB

Llama 3.1 8B: FP16 = 16 GB, Q8_0 = 8,5 GB, Q4_K_M = 4,9 GB, Q2_K = 3,2 GB. Von FP16 zu Q4_K_M schrumpft das Modell um rund 70 %. Gemessener Qualitätsverlust: unter 5 % für die meisten Aufgaben.

~70%
Größenreduktion ~70 % kleiner von FP16 zu Q4_K_M
<5%
Qualitätsverlust Unter 5 % bei Q4_K_M für die meisten Aufgaben

Häufiges Missverständnis: Quantisierung zerstört die Modellqualität

Bei INT4 (Q4_K_M) liegt der Qualitätsverlust typischerweise unter 5 % auf Standardbenchmarks. Bei Q8_0 ist er von FP16 kaum zu unterscheiden. Erst ab Q2 wird der Verlust spürbar — aber Q4 und darüber bewahren den Großteil der Modellleistung.

Interaktiv: Was kostet jede Genauigkeitsstufe?

Der Artikel hat die vier Genauigkeitsstufen FP32, FP16, INT8 und INT4 erklärt. Hier siehst du sie als interaktive Vergleichsmatrix: Klicke auf eine Zeile und beobachte, wie sich Größe, Geschwindigkeit und Qualität bei jeder Stufe verhalten. Die Heatmap-Farben zeigen dir sofort, wo die Vorteile und Kompromisse liegen.

Precision-Matrix: Quantisierungsstufen im Vergleich

Vorteil (klein/schnell/hoch)
Neutral
Nachteil (groß/langsam/niedrig)

Zeile anklicken für Detailansicht

FormatBits/ParamModellgrößeInferenz-SpeedQualitätVRAM (7B)
FP3232 100 % 1x 100 % ~28 GB
FP1616 50 % 2x 99 % ~14 GB
INT88 25 % 3x 95 % ~7 GB
INT44 12.5 % 5x 90 % ~3.5 GB
Kernaussage: Quantisierung ist ein Trade-off. INT4-Modelle brauchen nur 12,5 % des Speichers und laufen bis zu 5x schneller — bei nur 5-10 % Qualitätsverlust. Für viele Anwendungen ist das ein exzellenter Deal.

GGUF — Eine Datei, alles drin

GGUF ist wie ein eigenständiger App-Installer — im Gegensatz zum alten Ansatz, bei dem du separate Teile (Gewichte, Konfiguration, Tokenizer) einzeln herunterladen und selbst zusammensetzen musstest. Eine Datei, Doppelklick, fertig.

GGUF (GPT-Generated Unified Format) ist das Standarddateiformat für lokale Sprachmodelle, entwickelt für llama.cpp. Es ist monolithisch: Eine Datei enthält Modellgewichte, Tokenizer, Konfiguration und Metadaten. Die Namenskonvention kodiert alles: model-params-quant.gguf. Q-Level (Q2_K bis Q8_0) geben die Quantisierungsstufe an. Das K-Suffix bedeutet K-Quant (Mixed-Precision-Methode), S/M/L gibt die Größe der Quantisierungstabelle an.

Anders als ein App-Installer, der sich nach der Installation selbst löscht, IST die GGUF-Datei das Modell — sie wird während der Inferenz direkt gelesen, nicht entpackt.

Suche nach "Mistral-7B-Instruct-v0.2-GGUF" auf Hugging Face: Du findest 12+ Quantisierungsvarianten desselben Modells. Q4_K_M ist 4,37 GB (gut für 8 GB VRAM). Q2_K ist 3,08 GB (für 4 GB VRAM). Du musst NICHT selbst quantisieren — vorquantisierte Dateien sind für praktisch jedes populäre Modell verfügbar.

Q4_K_M
Sweet Spot Q4_K_M — empfohlen für die meisten Nutzer

Häufiges Missverständnis: Ich muss Modelle selbst quantisieren

Nein. Anbieter wie TheBloke und offizielle Modellseiten auf Hugging Face bieten vorquantisierte GGUF-Dateien zum Download an. Du wählst einfach das richtige Q-Level für deine Hardware und lädst es herunter.

Warum heißt es Q4_K_M und nicht einfach Q4? Das K steht für K-Quant, eine Methode, die nicht alle Schichten gleich behandelt. Kritische Schichten (etwa Attention-Layer) werden mit höherer Genauigkeit gespeichert, während weniger wichtige Schichten stärker komprimiert werden. Die Buchstaben S, M und L geben die Größe der Lookup-Tabelle an: L behält mehr Information bei, S komprimiert aggressiver. Q4_K_M ist der empfohlene Kompromiss — deutlich besser als naive 4-Bit-Quantisierung, weil die wichtigsten Informationen geschützt bleiben.

Hardware-Matching — Welches Modell passt auf deine Maschine?

Stell dir vor, du lädst Möbel in einen Umzugswagen. Ein Sofa passt entweder rein — oder nicht. Genauso muss das Modell komplett in den Speicher passen. Du kannst es "komprimieren" (quantisieren), so wie du Möbel auseinanderbauen kannst. Aber ein komplettes Wohnzimmer-Set, das gerade noch reinpasst (großes Modell, starke Quantisierung), macht deine Wohnung besser bewohnbar als ein einzelnes Möbelstück in Topzustand (kleines Modell, keine Quantisierung).

Die eiserne Regel: Dein quantisiertes Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen, plus 1-2 GB Overhead für Betriebssystem und Kontext. Die Entscheidungsmatrix ordnet VRAM optimale Modell-Quantisierungs-Kombinationen zu. Ein Schlüsselprinzip: Ein größeres Modell bei niedrigerer Quantisierung (z. B. 13B-Q4) übertrifft in der Regel ein kleineres Modell bei höherer Quantisierung (z. B. 8B-Q8), weil die breitere Wissensbasis mehr zählt als die Genauigkeit einzelner Gewichte.

Anders als bei Möbeln können Teile eines Modells in langsameren RAM ausgelagert werden (GPU/CPU-Split), aber das reduziert die Geschwindigkeit drastisch.

4 GB VRAM 3B-Q4_K_M oder 7B-Q2_K — sehr begrenzt, nur einfache Aufgaben
8 GB VRAM 7B-Q4_K_M (Sweet Spot) — solide Leistung bei den meisten Aufgaben (ca. 5 GB + 1-2 GB Overhead)
12 GB VRAM 13B-Q4_K_M oder 7B-Q6_K — optimaler Bereich für lokale KI
24 GB VRAM 70B-Q4_K_M oder 13B-Q8_0 — professionelle Qualität
8B-Q8 (höhere Genauigkeit)

8,5 GB. Höhere Genauigkeit pro Gewicht. Passt in 12 GB VRAM. Weniger Parameter = schmalere Wissensbasis.

13B-Q4_K_M (größeres Modell)

7,9 GB. Niedrigere Genauigkeit pro Gewicht. Passt in 12 GB VRAM. Mehr Parameter = breitere Wissensbasis. In der Regel bessere Antworten.

RTX 3060 mit 12 GB VRAM. Option A: 8B-Q6_K = 6,6 GB (passt, hohe Qualität). Option B: 13B-Q4_K_M = 7,9 GB (passt, mehr Wissen). Option C: 70B-Q4_K_M = 40 GB (passt nicht, braucht Auslagerung — sehr langsam). Empfehlung: Option B — das breitere Wissen des 13B-Modells überwiegt die höhere Einzelgewicht-Genauigkeit des 8B.

CPU-only: 7B-Q4_K_M auf 32 GB RAM läuft mit ~8 Tokens pro Sekunde — nutzbar, aber deutlich langsamer als GPU-Inferenz.

Häufiges Missverständnis: Immer die höchste Quantisierung (Q8) verwenden

Kontraintuitiv, aber wahr: Bei begrenztem VRAM liefert ein größeres Modell bei Q4 meist bessere Antworten als ein kleineres Modell bei Q8. Das Gesamtwissen in mehr Parametern überwiegt den Genauigkeitsvorteil von mehr Bits pro Gewicht.

Warum übertrifft ein 13B-Modell mit Q4 oft ein 8B-Modell mit Q8? Die Antwort liegt in der Natur des gespeicherten Wissens. Jeder Parameter kodiert Beziehungen zwischen Wörtern, Konzepten und Mustern. Mehr Parameter bedeuten mehr Beziehungen — eine breitere Wissensbasis. Die Reduktion von Q8 auf Q4 verringert die Genauigkeit einzelner Gewichte, aber die grundlegenden Muster bleiben erkennbar. Benchmarks bestätigen dies: Llama 2 13B-Q4_K_M erzielt auf MMLU (~55 %) ein besseres Ergebnis als Llama 2 7B-Q8_0 (~46 %). Der Wissensvorsprung von 6 Milliarden zusätzlichen Parametern überwiegt den Genauigkeitsverlust durch stärkere Quantisierung deutlich.

Zusammenfassung

  • Genauigkeit bestimmt Modellgröße: FP16 braucht 2 Bytes pro Gewicht, INT4 nur 0,5 Bytes — eine 4-fache Reduktion, die ein 14-GB-Modell in 3,5 GB schrumpft.
  • GGUF ist das Standardformat für lokale Modelle — eine Datei enthält alles. Q4_K_M ist der empfohlene Sweet Spot für die meisten Nutzer.
  • Immer Modell und Quantisierung auf die Hardware abstimmen: Das Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen, plus 1-2 GB Overhead.

Dieser Artikel schließt Pfad II.B (Lokale Sprachmodelle) ab. Du weißt jetzt, wo du Modelle findest, wie du sie lokal ausführst und wie du sie auf deine Hardware zuschneidest. Bereit für den nächsten Schritt?

Quiz: Quantisierung

Frage 1 / 5
Noch offen

Was bedeutet "INT4-Quantisierung" für die Gewichte eines Modells?

Wählen Sie eine Antwort
Auflösung: 1) B · 2) B · 3) B · 4) B · 5) B

Wissens-Check

  • Wenn du eine Zahl auf weniger Kommastellen rundest, verlierst du an Präzision. Warum funktioniert ein KI-Modell trotzdem noch erstaunlich gut, wenn Milliarden von Gewichten auf nur 4 Bit (Q4) reduziert werden?
  • Du findest auf Hugging Face eine Datei namens llama-3-8b-Q4_K_M.gguf. Was verraten dir die einzelnen Bestandteile des Namens über das Modell?
  • Du hast eine Grafikkarte mit 12 GB Speicher. Würdest du ein 8B-Modell mit Q8 oder ein 13B-Modell mit Q4 wählen? Begründe deine Entscheidung.