Tokenisierung: Das Alphabet der Maschinen

Wie aus Buchstaben Token werden, und warum LLMs die Welt durch diese Brille sehen.

Architekturen 12 min Fortgeschritten 15. Juni 2026

Frage ChatGPT, wie viele R in "strawberry" stecken — und es antwortet oft falsch. Nicht, weil es schlecht zählen kann, sondern weil es die Buchstaben nie einzeln sieht. Es sieht drei Stücke — "Str", "aw", "berry" — zusammengefügt von einem Algorithmus, der vor dem Gespräch läuft.

Alles, was ein Sprachmodell tut, beginnt damit, wie es Text in Stücke zerlegt. Dieser unsichtbare erste Schritt heißt Tokenisierung und bestimmt, was das Modell sehen kann, wie viel es sich merkt und was es niemals können wird.

Tokens — Warum nicht einfach Wörter?

Token

AnalogieDefinition
Stell dir drei Spielzeugsysteme vor. System A: einzelne Atome — du kannst alles bauen, aber ein Haus braucht Millionen Teile. System B: fertige Häuser — schnell platziert, aber wenn du eine Form brauchst, die nicht vorgefertigt wurde, hast du Pech. System C — LEGO — bietet ein paar tausend standardisierte Steine verschiedener Größen. Häufige Strukturen kommen als größere Fertigteile; ungewöhnliche Formen baust du aus kleineren Steinen zusammen. Genau so funktioniert Subword-Tokenisierung: Zeichen sind Atome, Wörter sind Fertighäuser, und Tokens sind LEGO-Steine — der nützliche Mittelweg.

Beispiel

LEGO-Steine haben physische Formen, die Menschen erkennen. Tokens dagegen sind willkürliche Zeichenketten wie "tion", " the" oder "ishable" — ohne inhärente Bedeutung. Die Analogie übertreibt die "Sinnhaftigkeit" der einzelnen Stücke.

Drei Granularitätsebenen

Es gibt drei Wege, Text in Zahlen umzuwandeln. Jeder hat seinen Preis:

Wort-Ebene

Riesiges Vokabular, unbekannte Wörter unmöglich, Tippfehler crashen das System

Subword-Ebene (Tokens)

Handhabbares Vokabular (32k-100k), jeder Input verarbeitbar, unbekannte Wörter werden zerteilt

Die dritte Option — Zeichen-Ebene — erzeugt ein winziges Vokabular von nur ~256 Einträgen, aber extrem lange Sequenzen. Subword-Tokenisierung löst beide Probleme gleichzeitig: Das Vokabular bleibt praktisch, und kein Input ist wirklich "unbekannt".

Das Strawberry-Problem

Wenn du ein LLM fragst "Wie viele R hat 'strawberry'?", antwortet es oft "2" statt "3". Der Grund ist architekturbedingt: Der Tokenizer zerlegt "strawberry" in Tokens wie "Str", "aw", "berry", bevor das Modell den Text überhaupt sieht.

Das Modell verarbeitet diese drei Stücke als unteilbare Einheiten — es kann nicht in einen Token hineinschauen, um einzelne Buchstaben zu zählen. Das ist kein Bug, der mit mehr Trainingsdaten behoben wird — es ist eine fundamentale Konsequenz der Subword-Tokenisierung.

Irrtum: "Tokens sind im Grunde einfach Wörter"

Wenn Tokens Wörter wären, bräuchte jede Sprache der Welt ein eigenes riesiges Vokabular, unbekannte Wörter würden das System zum Absturz bringen und Tippfehler wären unverarbeitbar. Subword-Tokenisierung wurde genau erfunden, um diese Probleme zu vermeiden. Ein Token kann ein ganzes Wort sein ("the"), ein Wortfragment ("tion"), ein einzelnes Zeichen ("x") oder sogar ein Leerzeichen plus Zeichen (" the"). Die Grenzen werden durch statistische Häufigkeit in den Trainingsdaten bestimmt, nicht durch linguistische Regeln.

Interaktiv: Text selbst tokenisieren

Gib einen beliebigen Text ein und beobachte, wie er in Tokens zerlegt wird. Wechsle zwischen Zeichen-, Wort- und Subwort-Tokenisierung und vergleiche: Wie viele Tokens entstehen bei jeder Methode? Beachte besonders, wie Subwort-Tokenisierung unbekannte Wörter in bekannte Teile zerlegt — genau das macht BPE, das du im nächsten Abschnitt kennenlernst.

Live-Tokenizer

Häufige Silben und Teilwörter werden zusammengefasst (wie GPT es tut). Bester Kompromiss zwischen Vokabulargröße und Tokenanzahl.

89Zeichen
23Tokens
3.9Zeichen/Token
Tokens:
KünstlicheIntelligenzverändertdieWelt.MaschinellesLernenisteinTeilgebietderKI.
Token-Liste anzeigen (23 Tokens)
1Künstli7 Zeichen
2che3 Zeichen
3Inte4 Zeichen
4lli3 Zeichen
5genz4 Zeichen
6ver3 Zeichen
7ändert6 Zeichen
8die3 Zeichen
9Welt4 Zeichen
10.1 Zeichen
11Maschi6 Zeichen
12nell4 Zeichen
13es2 Zeichen
14Lern4 Zeichen
15en2 Zeichen
16ist3 Zeichen
17ein3 Zeichen
18Tei3 Zeichen
19lge3 Zeichen
20biet4 Zeichen
21der3 Zeichen
22KI2 Zeichen
23.1 Zeichen
Warum ist das wichtig?

LLMs verarbeiten nicht Wörter, sondern Tokens. Ein längerer Text braucht mehr Tokens, was mehr Rechenzeit und Kosten bedeutet. Subword-Tokenizer (wie BPE) bieten den besten Kompromiss: weniger Tokens als zeichenweise, aber flexibler als wortweise Zerlegung.

ZeichenweiseJedes Zeichen = 1 Token. Sehr viele Tokens, aber kein unbekanntes Vokabular.
WortweiseJedes Wort = 1 Token. Wenige Tokens, aber unbekannte Wörter sind ein Problem.
Subword (BPE)Häufige Silben und Wörter werden zusammengefasst. Bester Kompromiss — Standard bei GPT & Co.

Byte-Pair Encoding — Wie das Vokabular sich selbst lernt

Byte-Pair Encoding (BPE)

AnalogieDefinition
Stell dir einen neuen Mitarbeiter vor, der tausende Firmen-E-Mails liest. In der ersten Woche bemerkt er, dass alle "so bald wie möglich" schreiben — er kürzt es zu "asap" ab. Nächste Woche wird "Ende des Tages" zu "EOD". Über Monate baut er ein persönliches Abkürzungswörterbuch für die häufigsten Phrasen. BPE macht dasselbe: Es beobachtet, welche Zeichenpaare am häufigsten vorkommen, und erstellt für jedes eine Kurzform (einen zusammengefügten Token).

Beispiel

Der entscheidende Unterschied: Der Mitarbeiter kürzt nach Bedeutung ab ("so bald wie möglich" ist eine semantische Einheit). BPE dagegen kürzt rein nach Zeichenhäufigkeit — es würde "th" und "e" zu "the" verschmelzen, nicht weil "the" ein sinnvolles Wort ist, sondern weil die Zeichen extrem oft nebeneinander stehen.

BPE auf einem Mini-Korpus

Korpus: "low lower lowest new newer newest". Startokens: einzelne Zeichen [l, o, w, e, r, s, t, n].

1
Häufigstes Paar: l + o → neuer Token "lo"
2
Häufigstes Paar: lo + w → neuer Token "low"
3
Häufigstes Paar: e + r → neuer Token "er"
4
Häufigstes Paar: e + s → neuer Token "es"
5
Häufigstes Paar: es + t → neuer Token "est"
6
Häufigstes Paar: n + e → neuer Token "ne"
7
Häufigstes Paar: ne + w → neuer Token "new"

Nach 7 Merges: "lowest" = ["low", "est"]. "newer" = ["new", "er"]. Jedes Wort wird aus wiederverwendbaren Teilen zusammengesetzt — und die Teile entstanden aus reiner Häufigkeitsstatistik.

32k–100k
Typische Vokabulargröße moderner Tokenizer

Tokenizer, die überwiegend auf englischem Text trainiert wurden, zerlegen deutschen oder Hindi-Text in deutlich mehr Tokens — für Deutsch etwa 30% mehr. Der Grund: Für englische Wörter existieren bereits effiziente Merges, während seltenere Sprachen stärker fragmentiert werden. Die Konsequenz ist direkt spürbar: 30% mehr Tokens bedeuten 30% höhere API-Kosten und 30% weniger Platz im Context Window — für denselben Inhalt.

~30%
Mehr Tokens für deutschen Text vs. Englisch

Irrtum: "Der Tokenizer versteht Wortgrenzen und Morphologie"

BPE hat kein Konzept von linguistischer Struktur. Es weiß nicht, dass "un-" ein Präfix oder "-ing" ein Suffix ist. Wenn "ung" häufiger vorkommt als "un" + "g" im Trainingskorpus (wie es in deutschen Texten der Fall ist), wird "ung" zu einem einzigen Token — unabhängig davon, ob es ein Suffix oder Teil eines Wortstamms ist. Dieser rein statistische Prozess erklärt auch die Mehrsprachigkeitsstrafe.

Das Context Window — Wie viel sich ein Modell merken kann

Context Window (Kontextfenster)

AnalogieDefinition
Stell dir vor, du schreibst eine Forschungsarbeit an einem Schreibtisch, auf den genau 50 Seiten passen. Du kannst alle 50 Seiten ausbreiten und frei darauf zugreifen. Aber sobald du Seite 51 hinzufügst, fällt Seite 1 vom Tisch und ist weg — nicht abgelegt, nicht zusammengefasst, einfach weg. Um sie wieder zu nutzen, muss jemand sie aus dem Archiv holen (das ist RAG: Retrieval-Augmented Generation).

Beispiel

Der Schreibtisch hat auch eine Eigenheit: Du fokussierst dich natürlich auf die Seiten direkt vor dir (die neuesten) und die oben angepinnten (die ersten), aber Seiten in der Mitte des Stapels werden übersehen. Einschränkung: Ein Schreibtisch ist räumlich, ein Context Window ist sequenziell — die Analogie erfasst nicht, dass Tokens der Reihe nach verarbeitet werden.
128k
GPT-4 Turbo Context Window (Tokens)
200k
Claude 3 Context Window (Tokens)

Ein Roman in Tokens

Ein durchschnittlicher Roman enthält 80.000-130.000 Wörter, was etwa 100.000-160.000 Tokens entspricht (Tokens > Wörter, weil Interpunktion, Leerzeichen und Subword-Splits Overhead erzeugen). Ein Modell mit 128k-Token-Fenster kann gerade so einen kompletten Roman fassen.

Lost-in-the-Middle-Effekt

Forscher haben gezeigt: Wenn eine Schlüsselinformation in der Mitte eines langen Kontexts platziert wird (etwa auf Seite 150 von 300), rufen Modelle sie deutlich schlechter ab als Informationen am Anfang oder Ende. Das Context Window ist kein gleichmäßiger Speicher — es hat eine U-förmige Aufmerksamkeitskurve, bei der Anfang und Ende bevorzugt werden.

Irrtum: "200k Context Window heißt, das Modell merkt sich alles perfekt"

Zwei Probleme untergraben diese Annahme. Erstens: Der Lost-in-the-Middle-Effekt bedeutet, dass die Abrufqualität für Informationen in der Mitte sehr langer Kontexte abnimmt, obwohl sie technisch hineinpassen. Zweitens: Längere Kontexte sind exponentiell teurer an Rechenleistung (quadratische Skalierung), weshalb viele Anwendungen die Kontextnutzung bewusst weit unter dem theoretischen Maximum halten. Ein 200k-Fenster ist eine Obergrenze, keine Qualitätsgarantie.

Interaktiv: Wie wählt ein LLM das nächste Token?

Ein Sprachmodell sagt nicht einfach das wahrscheinlichste Token vorher — es wählt aus einer Verteilung. Der Temperature-Parameter steuert, wie zufällig diese Wahl ist. Bewege den Slider: Bei niedriger Temperature dominiert das häufigste Token. Bei hoher Temperature werden auch unwahrscheinliche Tokens gewählt. Klicke mehrfach auf "Samplen" und beobachte, wie die empirische Häufigkeit zur theoretischen Wahrscheinlichkeit konvergiert.

Ein LLM hat den Anfang "Das Wetter heute ___" generiert und berechnet Wahrscheinlichkeiten für das nächste Wort. Das natürlichste nächste Wort ist "ist" — aber die Temperatur bestimmt, ob das Modell immer die sichere Wahl trifft oder auch ungewöhnlichere Fortsetzungen wagt.

0.1 (fokussiert)2.0 (kreativ)
Standard (T≈1.0): Die originalen Logit-Wahrscheinlichkeiten werden verwendet. Balance zwischen Präzision und Vielfalt.

Wahrscheinlichkeitsverteilung (bei T=1.0)

ist
73.3%
war
13.4%
wird
8.1%
soll
2.7%
bleibt
1.5%
kann
1.0%

Ergebnisse (0 Samples)

Noch keine Samples — klicke "Token würfeln"

Starte das Experiment

Klicke "Token würfeln" um zu sehen, wie das LLM bei der aktuellen Temperatur sampelt. Beobachte, wie sich die Verteilung der Ergebnisse mit mehr Samples der theoretischen Wahrscheinlichkeit annähert.

Kernaussagen

  • Tokens sind keine Wörter — sie sind statistische Subword-Einheiten, die der Tokenizer vor dem Modell erzeugt.
  • BPE baut das Vokabular durch reine Häufigkeitsstatistik, nicht durch Sprachverständnis.
  • Das Context Window ist ein hartes Limit gemessen in Tokens — wenn es voll ist, gehen ältere Informationen komplett verloren.
  • Selbst innerhalb des Context Windows vergessen Modelle Informationen in der Mitte (Lost-in-the-Middle-Effekt).

Nächster Artikel: Embeddings — wie diese Tokens zu Vektoren mit Bedeutung werden.

Checkpoint: Tokenisierung

  • Erkläre in eigenen Worten, warum ChatGPT bei der Frage nach den Buchstaben in 'strawberry' oft scheitert — und was das mit der Tokenisierung zu tun hat.
  • Nimm den Mini-Korpus 'mach, mache, machen'. Starte mit den Einzelzeichen [m, a, c, h, e, n] und führe die BPE-Merges Schritt für Schritt durch. Welche Tokens entstehen am Ende?
  • Ein Modell hat ein Context Window von 128k Tokens. Ein Nutzer gibt ein 300-Seiten-Dokument ein. Welche Informationen gehen verloren — und warum nicht gleichmäßig?

Quiz: Tokenisierung

Frage 1 / 5

Was ist der Hauptvorteil der Subword-Tokenisierung gegenüber Wort-Tokenisierung?

Wählen Sie eine Antwort
Auflösung: 1) B · 2) C · 3) B · 4) B · 5) B