Modelle schrumpfen für den Hausgebrauch — die Technik, die lokale KI erst praktikabel macht.
Konzepte 10 min Fortgeschritten 22. Juni 2026
Die neuesten Open-Source-Sprachmodelle sind erstaunlich leistungsfähig — aber sie wiegen 14 GB oder mehr. Dein Gaming-Laptop hat vielleicht 8 GB VRAM. Heißt das, lokale KI ist unerreichbar?
Keineswegs. Quantisierung komprimiert diese Modelle, indem sie die Genauigkeit ihrer Milliarden von Gewichten reduziert — Schrumpfung um bis zu 80 %, während der Großteil der Intelligenz erhalten bleibt. Dieser Artikel zeigt dir genau, wie das funktioniert und welches Modell auf deine Maschine passt.
Genauigkeit — Wie viele Bits pro Zahl?
Quantisierung
AnalogieDefinition
Stell dir die Zahl Pi vor. Bei voller Genauigkeit (FP32) speicherst du "3,141592653589" — perfekt für Berechnungen. Bei halber Genauigkeit (FP16) speicherst du "3,14159" — gut genug für fast alles. Bei 4-Bit (INT4) speicherst du nur "3" — eine grobe Näherung, aber immer noch korrekt genug, um zu wissen, dass ein Kreis mit Durchmesser 1 einen Umfang von ungefähr 3 hat.
Analogie:
Stell dir die Zahl Pi vor. Bei voller Genauigkeit (FP32) speicherst du "3,141592653589" — perfekt für Berechnungen. Bei halber Genauigkeit (FP16) speicherst du "3,14159" — gut genug für fast alles. Bei 4-Bit (INT4) speicherst du nur "3" — eine grobe Näherung, aber immer noch korrekt genug, um zu wissen, dass ein Kreis mit Durchmesser 1 einen Umfang von ungefähr 3 hat.
Definition:
Quantisierung reduziert die numerische Genauigkeit der Modellgewichte, um Größe zu verringern und Geschwindigkeit zu erhöhen. Genauigkeit (Precision) bestimmt, wie viele Bits der Computer für jedes Gewicht in einem neuronalen Netz verwendet. Höhere Genauigkeit (FP32 = 32 Bits) bedeutet präzisere Zahlen, aber mehr Speicher. Niedrigere Genauigkeit (INT4 = 4 Bits) bedeutet gröbere Näherungen, aber drastisch weniger Speicher.
Anders als beim Runden einer einzelnen Zahl betrifft Quantisierung Milliarden von Gewichten gleichzeitig. Wechselwirkungen zwischen gerundeten Gewichten können Fehler unvorhersehbar verstärken. In der Praxis verteilen moderne Quantisierungsmethoden die Fehler jedoch so gut, dass der Qualitätsverlust minimal bleibt.
FP32 (Full Precision) 32 Bit = 4 Bytes pro Gewicht. 7B-Modell: ~28 GB
FP16 (Half Precision) 16 Bit = 2 Bytes pro Gewicht. 7B-Modell: ~14 GB
INT8 8 Bit = 1 Byte pro Gewicht. 7B-Modell: ~7 GB
INT4 4 Bit = 0,5 Bytes pro Gewicht. 7B-Modell: ~3,5 GB
Llama 3.1 8B: FP16 = 16 GB, Q8_0 = 8,5 GB, Q4_K_M = 4,9 GB, Q2_K = 3,2 GB. Von FP16 zu Q4_K_M schrumpft das Modell um rund 70 %. Gemessener Qualitätsverlust: unter 5 % für die meisten Aufgaben.
~70%
Größenreduktion ~70 % kleiner von FP16 zu Q4_K_M
<5%
Qualitätsverlust Unter 5 % bei Q4_K_M für die meisten Aufgaben
Häufiges Missverständnis: Quantisierung zerstört die Modellqualität
Bei INT4 (Q4_K_M) liegt der Qualitätsverlust typischerweise unter 5 % auf Standardbenchmarks. Bei Q8_0 ist er von FP16 kaum zu unterscheiden. Erst ab Q2 wird der Verlust spürbar — aber Q4 und darüber bewahren den Großteil der Modellleistung.
Interaktiv: Was kostet jede Genauigkeitsstufe?
Der Artikel hat die vier Genauigkeitsstufen FP32, FP16, INT8 und INT4 erklärt. Hier siehst du sie als interaktive Vergleichsmatrix: Klicke auf eine Zeile und beobachte, wie sich Größe, Geschwindigkeit und Qualität bei jeder Stufe verhalten. Die Heatmap-Farben zeigen dir sofort, wo die Vorteile und Kompromisse liegen.
Precision-Matrix: Quantisierungsstufen im Vergleich
Vorteil (klein/schnell/hoch)
Neutral
Nachteil (groß/langsam/niedrig)
Zeile anklicken für Detailansicht
Format
Bits/Param
Modellgröße
Inferenz-Speed
Qualität
VRAM (7B)
▸FP32
32
100 %
1x
100 %
~28 GB
▸FP16
16
50 %
2x
99 %
~14 GB
▸INT8
8
25 %
3x
95 %
~7 GB
▸INT4
4
12.5 %
5x
90 %
~3.5 GB
Kernaussage: Quantisierung ist ein Trade-off. INT4-Modelle brauchen nur 12,5 % des Speichers und laufen bis zu 5x schneller — bei nur 5-10 % Qualitätsverlust. Für viele Anwendungen ist das ein exzellenter Deal.
GGUF — Eine Datei, alles drin
GGUF ist wie ein eigenständiger App-Installer — im Gegensatz zum alten Ansatz, bei dem du separate Teile (Gewichte, Konfiguration, Tokenizer) einzeln herunterladen und selbst zusammensetzen musstest. Eine Datei, Doppelklick, fertig.
GGUF (GPT-Generated Unified Format) ist das Standarddateiformat für lokale Sprachmodelle, entwickelt für llama.cpp. Es ist monolithisch: Eine Datei enthält Modellgewichte, Tokenizer, Konfiguration und Metadaten. Die Namenskonvention kodiert alles: model-params-quant.gguf. Q-Level (Q2_K bis Q8_0) geben die Quantisierungsstufe an. Das K-Suffix bedeutet K-Quant (Mixed-Precision-Methode), S/M/L gibt die Größe der Quantisierungstabelle an.
Anders als ein App-Installer, der sich nach der Installation selbst löscht, IST die GGUF-Datei das Modell — sie wird während der Inferenz direkt gelesen, nicht entpackt.
Suche nach "Mistral-7B-Instruct-v0.2-GGUF" auf Hugging Face: Du findest 12+ Quantisierungsvarianten desselben Modells. Q4_K_M ist 4,37 GB (gut für 8 GB VRAM). Q2_K ist 3,08 GB (für 4 GB VRAM). Du musst NICHT selbst quantisieren — vorquantisierte Dateien sind für praktisch jedes populäre Modell verfügbar.
Q4_K_M
Sweet Spot Q4_K_M — empfohlen für die meisten Nutzer
Häufiges Missverständnis: Ich muss Modelle selbst quantisieren
Nein. Anbieter wie TheBloke und offizielle Modellseiten auf Hugging Face bieten vorquantisierte GGUF-Dateien zum Download an. Du wählst einfach das richtige Q-Level für deine Hardware und lädst es herunter.
K-Quant: Mixed Precision
Warum heißt es Q4_K_M und nicht einfach Q4? Das K steht für K-Quant, eine Methode, die nicht alle Schichten gleich behandelt. Kritische Schichten (etwa Attention-Layer) werden mit höherer Genauigkeit gespeichert, während weniger wichtige Schichten stärker komprimiert werden. Die Buchstaben S, M und L geben die Größe der Lookup-Tabelle an: L behält mehr Information bei, S komprimiert aggressiver. Q4_K_M ist der empfohlene Kompromiss — deutlich besser als naive 4-Bit-Quantisierung, weil die wichtigsten Informationen geschützt bleiben.
Hardware-Matching — Welches Modell passt auf deine Maschine?
Stell dir vor, du lädst Möbel in einen Umzugswagen. Ein Sofa passt entweder rein — oder nicht. Genauso muss das Modell komplett in den Speicher passen. Du kannst es "komprimieren" (quantisieren), so wie du Möbel auseinanderbauen kannst. Aber ein komplettes Wohnzimmer-Set, das gerade noch reinpasst (großes Modell, starke Quantisierung), macht deine Wohnung besser bewohnbar als ein einzelnes Möbelstück in Topzustand (kleines Modell, keine Quantisierung).
Die eiserne Regel: Dein quantisiertes Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen, plus 1-2 GB Overhead für Betriebssystem und Kontext. Die Entscheidungsmatrix ordnet VRAM optimale Modell-Quantisierungs-Kombinationen zu. Ein Schlüsselprinzip: Ein größeres Modell bei niedrigerer Quantisierung (z. B. 13B-Q4) übertrifft in der Regel ein kleineres Modell bei höherer Quantisierung (z. B. 8B-Q8), weil die breitere Wissensbasis mehr zählt als die Genauigkeit einzelner Gewichte.
Anders als bei Möbeln können Teile eines Modells in langsameren RAM ausgelagert werden (GPU/CPU-Split), aber das reduziert die Geschwindigkeit drastisch.
4 GB VRAM 3B-Q4_K_M oder 7B-Q2_K — sehr begrenzt, nur einfache Aufgaben
8 GB VRAM 7B-Q4_K_M (Sweet Spot) — solide Leistung bei den meisten Aufgaben (ca. 5 GB + 1-2 GB Overhead)
12 GB VRAM 13B-Q4_K_M oder 7B-Q6_K — optimaler Bereich für lokale KI
24 GB VRAM 70B-Q4_K_M oder 13B-Q8_0 — professionelle Qualität
8B-Q8 (höhere Genauigkeit)
8,5 GB. Höhere Genauigkeit pro Gewicht. Passt in 12 GB VRAM. Weniger Parameter = schmalere Wissensbasis.
13B-Q4_K_M (größeres Modell)
7,9 GB. Niedrigere Genauigkeit pro Gewicht. Passt in 12 GB VRAM. Mehr Parameter = breitere Wissensbasis. In der Regel bessere Antworten.
RTX 3060 mit 12 GB VRAM. Option A: 8B-Q6_K = 6,6 GB (passt, hohe Qualität). Option B: 13B-Q4_K_M = 7,9 GB (passt, mehr Wissen). Option C: 70B-Q4_K_M = 40 GB (passt nicht, braucht Auslagerung — sehr langsam). Empfehlung: Option B — das breitere Wissen des 13B-Modells überwiegt die höhere Einzelgewicht-Genauigkeit des 8B.
CPU-only: 7B-Q4_K_M auf 32 GB RAM läuft mit ~8 Tokens pro Sekunde — nutzbar, aber deutlich langsamer als GPU-Inferenz.
Häufiges Missverständnis: Immer die höchste Quantisierung (Q8) verwenden
Kontraintuitiv, aber wahr: Bei begrenztem VRAM liefert ein größeres Modell bei Q4 meist bessere Antworten als ein kleineres Modell bei Q8. Das Gesamtwissen in mehr Parametern überwiegt den Genauigkeitsvorteil von mehr Bits pro Gewicht.
Warum übertrifft ein 13B-Modell mit Q4 oft ein 8B-Modell mit Q8? Die Antwort liegt in der Natur des gespeicherten Wissens. Jeder Parameter kodiert Beziehungen zwischen Wörtern, Konzepten und Mustern. Mehr Parameter bedeuten mehr Beziehungen — eine breitere Wissensbasis. Die Reduktion von Q8 auf Q4 verringert die Genauigkeit einzelner Gewichte, aber die grundlegenden Muster bleiben erkennbar. Benchmarks bestätigen dies: Llama 2 13B-Q4_K_M erzielt auf MMLU (~55 %) ein besseres Ergebnis als Llama 2 7B-Q8_0 (~46 %). Der Wissensvorsprung von 6 Milliarden zusätzlichen Parametern überwiegt den Genauigkeitsverlust durch stärkere Quantisierung deutlich.
Zusammenfassung
Genauigkeit bestimmt Modellgröße: FP16 braucht 2 Bytes pro Gewicht, INT4 nur 0,5 Bytes — eine 4-fache Reduktion, die ein 14-GB-Modell in 3,5 GB schrumpft.
GGUF ist das Standardformat für lokale Modelle — eine Datei enthält alles. Q4_K_M ist der empfohlene Sweet Spot für die meisten Nutzer.
Immer Modell und Quantisierung auf die Hardware abstimmen: Das Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen, plus 1-2 GB Overhead.
Dieser Artikel schließt Pfad II.B (Lokale Sprachmodelle) ab. Du weißt jetzt, wo du Modelle findest, wie du sie lokal ausführst und wie du sie auf deine Hardware zuschneidest. Bereit für den nächsten Schritt?
Quiz: Quantisierung
Frage 1 / 5
Noch offen
Was bedeutet "INT4-Quantisierung" für die Gewichte eines Modells?
1. Was bedeutet "INT4-Quantisierung" für die Gewichte eines Modells?
☐ A) Jedes Gewicht wird mit 4 Bytes (32 Bits) gespeichert
☐ B) Jedes Gewicht wird mit 4 Bits (0,5 Bytes) gespeichert
☐ C) Das Modell hat genau 4 Milliarden Parameter
☐ D) Das Modell wird in 4 separate Dateien aufgeteilt
2. Ein Modell hat 7 Milliarden Parameter. Wie viel Speicher braucht es ungefähr in FP16 gegenüber INT4?
☐ A) FP16 = 7 GB, INT4 = 1,75 GB
☐ B) FP16 = 14 GB, INT4 = 3,5 GB
☐ C) FP16 = 28 GB, INT4 = 7 GB
☐ D) FP16 = 3,5 GB, INT4 = 14 GB
3. Du siehst den Dateinamen mistral-7b-instruct-Q4_K_M.gguf. Was verrät dir "Q4_K_M"?
☐ A) Das Modell wurde 4 Epochen mit dem Keras-Framework trainiert, mittlere Batch-Größe
☐ B) 4-Bit-Quantisierung mit der K-Quant-Mixed-Precision-Methode, mittlere Tabellengröße
☐ C) Das Modell hat 4.000 Schichten, optimiert für Mobilgeräte
☐ D) Viertelpräzision mit 4 KB Kontextfenster
4. Du hast 12 GB VRAM. Welches Setup wählst du und warum?
☐ A) 7B-Q6_K (6,6 GB) — höchste Qualität, die sicher passt
☐ C) 70B-Q2_K (24 GB) — das größte Modell ist immer das beste
☐ D) 7B-FP16 (14 GB) — kein Qualitätsverlust ist den Extra-Aufwand wert
5. Ein Freund behauptet: "Ich lade immer Q8-Dateien, weil höhere Quantisierung bessere Antworten bedeutet." Du hast eine GPU mit 12 GB VRAM. Warum könnte diese Strategie nach hinten losgehen?
☐ A) Q8-Dateien sind oft beschädigt und stürzen bei der Inferenz ab
☐ B) Bei 12 GB VRAM beschränkt Q8 dich auf kleinere Modelle (z. B. 8B). Ein 13B-Modell mit Q4_K_M würde stattdessen passen — und das breitere Wissen von 13B Parametern übertrifft wahrscheinlich die höhere Einzelgewicht-Genauigkeit von 8B-Q8
☐ C) Q8-Dateien funktionieren nur auf NVIDIA-GPUs, nicht auf AMD
☐ D) Höhere Quantisierungszahlen bedeuten mehr Kompression, also ist Q8 tatsächlich schlechter als Q4
Auflösung: 1) B · 2) B · 3) B · 4) B · 5) B
Wissens-Check
Wenn du eine Zahl auf weniger Kommastellen rundest, verlierst du an Präzision. Warum funktioniert ein KI-Modell trotzdem noch erstaunlich gut, wenn Milliarden von Gewichten auf nur 4 Bit (Q4) reduziert werden?
Du findest auf Hugging Face eine Datei namens llama-3-8b-Q4_K_M.gguf. Was verraten dir die einzelnen Bestandteile des Namens über das Modell?
Du hast eine Grafikkarte mit 12 GB Speicher. Würdest du ein 8B-Modell mit Q8 oder ein 13B-Modell mit Q4 wählen? Begründe deine Entscheidung.