Wie aus Buchstaben Token werden, und warum LLMs die Welt durch diese Brille sehen.
Architekturen 12 min Fortgeschritten 15. Juni 2026
Frage ChatGPT, wie viele R in "strawberry" stecken — und es antwortet oft falsch. Nicht, weil es schlecht zählen kann, sondern weil es die Buchstaben nie einzeln sieht. Es sieht drei Stücke — "Str", "aw", "berry" — zusammengefügt von einem Algorithmus, der vor dem Gespräch läuft.
Alles, was ein Sprachmodell tut, beginnt damit, wie es Text in Stücke zerlegt. Dieser unsichtbare erste Schritt heißt Tokenisierung und bestimmt, was das Modell sehen kann, wie viel es sich merkt und was es niemals können wird.
Tokens — Warum nicht einfach Wörter?
Token
AnalogieDefinition
Stell dir drei Spielzeugsysteme vor. System A: einzelne Atome — du kannst alles bauen, aber ein Haus braucht Millionen Teile. System B: fertige Häuser — schnell platziert, aber wenn du eine Form brauchst, die nicht vorgefertigt wurde, hast du Pech. System C — LEGO — bietet ein paar tausend standardisierte Steine verschiedener Größen. Häufige Strukturen kommen als größere Fertigteile; ungewöhnliche Formen baust du aus kleineren Steinen zusammen. Genau so funktioniert Subword-Tokenisierung: Zeichen sind Atome, Wörter sind Fertighäuser, und Tokens sind LEGO-Steine — der nützliche Mittelweg.
Beispiel
LEGO-Steine haben physische Formen, die Menschen erkennen. Tokens dagegen sind willkürliche Zeichenketten wie "tion", " the" oder "ishable" — ohne inhärente Bedeutung. Die Analogie übertreibt die "Sinnhaftigkeit" der einzelnen Stücke.
Analogie:
Stell dir drei Spielzeugsysteme vor. System A: einzelne Atome — du kannst alles bauen, aber ein Haus braucht Millionen Teile. System B: fertige Häuser — schnell platziert, aber wenn du eine Form brauchst, die nicht vorgefertigt wurde, hast du Pech. System C — LEGO — bietet ein paar tausend standardisierte Steine verschiedener Größen. Häufige Strukturen kommen als größere Fertigteile; ungewöhnliche Formen baust du aus kleineren Steinen zusammen. Genau so funktioniert Subword-Tokenisierung: Zeichen sind Atome, Wörter sind Fertighäuser, und Tokens sind LEGO-Steine — der nützliche Mittelweg.
Beispiel
LEGO-Steine haben physische Formen, die Menschen erkennen. Tokens dagegen sind willkürliche Zeichenketten wie "tion", " the" oder "ishable" — ohne inhärente Bedeutung. Die Analogie übertreibt die "Sinnhaftigkeit" der einzelnen Stücke.
Definition:
Ein Token ist die fundamentale Verarbeitungseinheit eines Sprachmodells — kein Wort, kein Zeichen, sondern eine Subword-Einheit, die durch einen statistischen Algorithmus bestimmt wird. Moderne Sprachmodelle verwenden universell Subword-Tokenisierung mit Vokabulargrößen von 32.000 bis 100.000 Einträgen.
Drei Granularitätsebenen
Es gibt drei Wege, Text in Zahlen umzuwandeln. Jeder hat seinen Preis:
Wort-Ebene
Riesiges Vokabular, unbekannte Wörter unmöglich, Tippfehler crashen das System
Subword-Ebene (Tokens)
Handhabbares Vokabular (32k-100k), jeder Input verarbeitbar, unbekannte Wörter werden zerteilt
Die dritte Option — Zeichen-Ebene — erzeugt ein winziges Vokabular von nur ~256 Einträgen, aber extrem lange Sequenzen. Subword-Tokenisierung löst beide Probleme gleichzeitig: Das Vokabular bleibt praktisch, und kein Input ist wirklich "unbekannt".
Das Strawberry-Problem
Wenn du ein LLM fragst "Wie viele R hat 'strawberry'?", antwortet es oft "2" statt "3". Der Grund ist architekturbedingt: Der Tokenizer zerlegt "strawberry" in Tokens wie "Str", "aw", "berry", bevor das Modell den Text überhaupt sieht.
Das Modell verarbeitet diese drei Stücke als unteilbare Einheiten — es kann nicht in einen Token hineinschauen, um einzelne Buchstaben zu zählen. Das ist kein Bug, der mit mehr Trainingsdaten behoben wird — es ist eine fundamentale Konsequenz der Subword-Tokenisierung.
Irrtum: "Tokens sind im Grunde einfach Wörter"
Wenn Tokens Wörter wären, bräuchte jede Sprache der Welt ein eigenes riesiges Vokabular, unbekannte Wörter würden das System zum Absturz bringen und Tippfehler wären unverarbeitbar. Subword-Tokenisierung wurde genau erfunden, um diese Probleme zu vermeiden. Ein Token kann ein ganzes Wort sein ("the"), ein Wortfragment ("tion"), ein einzelnes Zeichen ("x") oder sogar ein Leerzeichen plus Zeichen (" the"). Die Grenzen werden durch statistische Häufigkeit in den Trainingsdaten bestimmt, nicht durch linguistische Regeln.
Interaktiv: Text selbst tokenisieren
Gib einen beliebigen Text ein und beobachte, wie er in Tokens zerlegt wird. Wechsle zwischen Zeichen-, Wort- und Subwort-Tokenisierung und vergleiche: Wie viele Tokens entstehen bei jeder Methode? Beachte besonders, wie Subwort-Tokenisierung unbekannte Wörter in bekannte Teile zerlegt — genau das macht BPE, das du im nächsten Abschnitt kennenlernst.
Live-Tokenizer
Häufige Silben und Teilwörter werden zusammengefasst (wie GPT es tut). Bester Kompromiss zwischen Vokabulargröße und Tokenanzahl.
LLMs verarbeiten nicht Wörter, sondern Tokens. Ein längerer Text braucht mehr Tokens, was mehr Rechenzeit und Kosten bedeutet. Subword-Tokenizer (wie BPE) bieten den besten Kompromiss: weniger Tokens als zeichenweise, aber flexibler als wortweise Zerlegung.
ZeichenweiseJedes Zeichen = 1 Token. Sehr viele Tokens, aber kein unbekanntes Vokabular.
WortweiseJedes Wort = 1 Token. Wenige Tokens, aber unbekannte Wörter sind ein Problem.
Subword (BPE)Häufige Silben und Wörter werden zusammengefasst. Bester Kompromiss — Standard bei GPT & Co.
Byte-Pair Encoding — Wie das Vokabular sich selbst lernt
Byte-Pair Encoding (BPE)
AnalogieDefinition
Stell dir einen neuen Mitarbeiter vor, der tausende Firmen-E-Mails liest. In der ersten Woche bemerkt er, dass alle "so bald wie möglich" schreiben — er kürzt es zu "asap" ab. Nächste Woche wird "Ende des Tages" zu "EOD". Über Monate baut er ein persönliches Abkürzungswörterbuch für die häufigsten Phrasen. BPE macht dasselbe: Es beobachtet, welche Zeichenpaare am häufigsten vorkommen, und erstellt für jedes eine Kurzform (einen zusammengefügten Token).
Beispiel
Der entscheidende Unterschied: Der Mitarbeiter kürzt nach Bedeutung ab ("so bald wie möglich" ist eine semantische Einheit). BPE dagegen kürzt rein nach Zeichenhäufigkeit — es würde "th" und "e" zu "the" verschmelzen, nicht weil "the" ein sinnvolles Wort ist, sondern weil die Zeichen extrem oft nebeneinander stehen.
Analogie:
Stell dir einen neuen Mitarbeiter vor, der tausende Firmen-E-Mails liest. In der ersten Woche bemerkt er, dass alle "so bald wie möglich" schreiben — er kürzt es zu "asap" ab. Nächste Woche wird "Ende des Tages" zu "EOD". Über Monate baut er ein persönliches Abkürzungswörterbuch für die häufigsten Phrasen. BPE macht dasselbe: Es beobachtet, welche Zeichenpaare am häufigsten vorkommen, und erstellt für jedes eine Kurzform (einen zusammengefügten Token).
Beispiel
Der entscheidende Unterschied: Der Mitarbeiter kürzt nach Bedeutung ab ("so bald wie möglich" ist eine semantische Einheit). BPE dagegen kürzt rein nach Zeichenhäufigkeit — es würde "th" und "e" zu "the" verschmelzen, nicht weil "the" ein sinnvolles Wort ist, sondern weil die Zeichen extrem oft nebeneinander stehen.
Definition:
Byte-Pair Encoding (BPE) ist der dominierende Tokenisierungsalgorithmus in Modellen wie GPT-4 und Llama. Ausgehend von einem Basisvokabular einzelner Zeichen oder Bytes scannt BPE einen Trainingskorpus, findet das am häufigsten gemeinsam auftretende Zeichenpaar, verschmilzt es zu einem neuen Token und wiederholt den Vorgang. Die finale Vokabulargröße (typisch 32.000 bis 100.000 Tokens) ist ein Hyperparameter.
BPE auf einem Mini-Korpus
Korpus: "low lower lowest new newer newest". Startokens: einzelne Zeichen [l, o, w, e, r, s, t, n].
1
Häufigstes Paar: l + o → neuer Token "lo"
2
Häufigstes Paar: lo + w → neuer Token "low"
3
Häufigstes Paar: e + r → neuer Token "er"
4
Häufigstes Paar: e + s → neuer Token "es"
5
Häufigstes Paar: es + t → neuer Token "est"
6
Häufigstes Paar: n + e → neuer Token "ne"
7
Häufigstes Paar: ne + w → neuer Token "new"
Nach 7 Merges: "lowest" = ["low", "est"]. "newer" = ["new", "er"]. Jedes Wort wird aus wiederverwendbaren Teilen zusammengesetzt — und die Teile entstanden aus reiner Häufigkeitsstatistik.
32k–100k
Typische Vokabulargröße moderner Tokenizer
Deep Dive: Mehrsprachigkeitsstrafe
Tokenizer, die überwiegend auf englischem Text trainiert wurden, zerlegen deutschen oder Hindi-Text in deutlich mehr Tokens — für Deutsch etwa 30% mehr. Der Grund: Für englische Wörter existieren bereits effiziente Merges, während seltenere Sprachen stärker fragmentiert werden. Die Konsequenz ist direkt spürbar: 30% mehr Tokens bedeuten 30% höhere API-Kosten und 30% weniger Platz im Context Window — für denselben Inhalt.
~30%
Mehr Tokens für deutschen Text vs. Englisch
Irrtum: "Der Tokenizer versteht Wortgrenzen und Morphologie"
BPE hat kein Konzept von linguistischer Struktur. Es weiß nicht, dass "un-" ein Präfix oder "-ing" ein Suffix ist. Wenn "ung" häufiger vorkommt als "un" + "g" im Trainingskorpus (wie es in deutschen Texten der Fall ist), wird "ung" zu einem einzigen Token — unabhängig davon, ob es ein Suffix oder Teil eines Wortstamms ist. Dieser rein statistische Prozess erklärt auch die Mehrsprachigkeitsstrafe.
Das Context Window — Wie viel sich ein Modell merken kann
Context Window (Kontextfenster)
AnalogieDefinition
Stell dir vor, du schreibst eine Forschungsarbeit an einem Schreibtisch, auf den genau 50 Seiten passen. Du kannst alle 50 Seiten ausbreiten und frei darauf zugreifen. Aber sobald du Seite 51 hinzufügst, fällt Seite 1 vom Tisch und ist weg — nicht abgelegt, nicht zusammengefasst, einfach weg. Um sie wieder zu nutzen, muss jemand sie aus dem Archiv holen (das ist RAG: Retrieval-Augmented Generation).
Beispiel
Der Schreibtisch hat auch eine Eigenheit: Du fokussierst dich natürlich auf die Seiten direkt vor dir (die neuesten) und die oben angepinnten (die ersten), aber Seiten in der Mitte des Stapels werden übersehen. Einschränkung: Ein Schreibtisch ist räumlich, ein Context Window ist sequenziell — die Analogie erfasst nicht, dass Tokens der Reihe nach verarbeitet werden.
Analogie:
Stell dir vor, du schreibst eine Forschungsarbeit an einem Schreibtisch, auf den genau 50 Seiten passen. Du kannst alle 50 Seiten ausbreiten und frei darauf zugreifen. Aber sobald du Seite 51 hinzufügst, fällt Seite 1 vom Tisch und ist weg — nicht abgelegt, nicht zusammengefasst, einfach weg. Um sie wieder zu nutzen, muss jemand sie aus dem Archiv holen (das ist RAG: Retrieval-Augmented Generation).
Beispiel
Der Schreibtisch hat auch eine Eigenheit: Du fokussierst dich natürlich auf die Seiten direkt vor dir (die neuesten) und die oben angepinnten (die ersten), aber Seiten in der Mitte des Stapels werden übersehen. Einschränkung: Ein Schreibtisch ist räumlich, ein Context Window ist sequenziell — die Analogie erfasst nicht, dass Tokens der Reihe nach verarbeitet werden.
Definition:
Das Context Window (auch Context Length) ist die maximale Anzahl von Tokens, die ein Sprachmodell in einem einzigen Durchlauf verarbeiten kann. GPT-4 Turbo hat ein Context Window von 128.000 Tokens; Claude 3 unterstützt bis zu 200.000 Tokens. Es handelt sich um eine harte Obergrenze: Wenn das Fenster voll ist, werden ältere Tokens komplett verworfen.
128k
GPT-4 Turbo Context Window (Tokens)
200k
Claude 3 Context Window (Tokens)
2020 Publikationen
GPT-3: Das 175-Milliarden-Parameter-Modell
Der Durchbruch zu Few-Shot Learning und emergenten KI-Fähigkeiten. Am 28. Mai 2020 präsentierte OpenAIs Team um Tom Brown das bedeutende Paper 'Language Models are Few-Shot Learners' – GPT-3 mit 175 Milliarden Parametern, über 100-fach größer als GPT-2. Die Skalierung enthüllte emergente Fähigkeiten: Das Modell konnte neue Aufgaben mit nur wenigen Beispielen lösen, ohne Fine-Tuning. Von Übersetzungen über Wort-Rätsel bis zu 3-stelliger Arithmetik demonstrierte GPT-3 beeindruckende Vielseitigkeit. Menschliche Evaluatoren konnten von GPT-3 generierte Nachrichtenartikel kaum von echten unterscheiden. Das System erreichte nahezu state-of-the-art Ergebnisse auf SuperGLUE-Benchmarks allein durch In-Context Learning. 31 OpenAI-Forscher (Tom Brown und 30 Ko-Autoren) bewiesen: Massive Parameterskalierung kann qualitativ neue Fähigkeiten hervorbringen. GPT-3 legte das Fundament für ChatGPT und die moderne LLM-Ära.
Ein Roman in Tokens
Ein durchschnittlicher Roman enthält 80.000-130.000 Wörter, was etwa 100.000-160.000 Tokens entspricht (Tokens > Wörter, weil Interpunktion, Leerzeichen und Subword-Splits Overhead erzeugen). Ein Modell mit 128k-Token-Fenster kann gerade so einen kompletten Roman fassen.
Lost-in-the-Middle-Effekt
Forscher haben gezeigt: Wenn eine Schlüsselinformation in der Mitte eines langen Kontexts platziert wird (etwa auf Seite 150 von 300), rufen Modelle sie deutlich schlechter ab als Informationen am Anfang oder Ende. Das Context Window ist kein gleichmäßiger Speicher — es hat eine U-förmige Aufmerksamkeitskurve, bei der Anfang und Ende bevorzugt werden.
Irrtum: "200k Context Window heißt, das Modell merkt sich alles perfekt"
Zwei Probleme untergraben diese Annahme. Erstens: Der Lost-in-the-Middle-Effekt bedeutet, dass die Abrufqualität für Informationen in der Mitte sehr langer Kontexte abnimmt, obwohl sie technisch hineinpassen. Zweitens: Längere Kontexte sind exponentiell teurer an Rechenleistung (quadratische Skalierung), weshalb viele Anwendungen die Kontextnutzung bewusst weit unter dem theoretischen Maximum halten. Ein 200k-Fenster ist eine Obergrenze, keine Qualitätsgarantie.
Interaktiv: Wie wählt ein LLM das nächste Token?
Ein Sprachmodell sagt nicht einfach das wahrscheinlichste Token vorher — es wählt aus einer Verteilung. Der Temperature-Parameter steuert, wie zufällig diese Wahl ist. Bewege den Slider: Bei niedriger Temperature dominiert das häufigste Token. Bei hoher Temperature werden auch unwahrscheinliche Tokens gewählt. Klicke mehrfach auf "Samplen" und beobachte, wie die empirische Häufigkeit zur theoretischen Wahrscheinlichkeit konvergiert.
Ein LLM hat den Anfang "Das Wetter heute ___" generiert und berechnet Wahrscheinlichkeiten für das nächste Wort. Das natürlichste nächste Wort ist "ist" — aber die Temperatur bestimmt, ob das Modell immer die sichere Wahl trifft oder auch ungewöhnlichere Fortsetzungen wagt.
0.1 (fokussiert)2.0 (kreativ)
Standard (T≈1.0): Die originalen Logit-Wahrscheinlichkeiten werden verwendet. Balance zwischen Präzision und Vielfalt.
Wahrscheinlichkeitsverteilung (bei T=1.0)
ist
73.3%
war
13.4%
wird
8.1%
soll
2.7%
bleibt
1.5%
kann
1.0%
Ergebnisse (0 Samples)
Noch keine Samples — klicke "Token würfeln"
Starte das Experiment
Klicke "Token würfeln" um zu sehen, wie das LLM bei der aktuellen Temperatur sampelt. Beobachte, wie sich die Verteilung der Ergebnisse mit mehr Samples der theoretischen Wahrscheinlichkeit annähert.
Kernaussagen
Tokens sind keine Wörter — sie sind statistische Subword-Einheiten, die der Tokenizer vor dem Modell erzeugt.
BPE baut das Vokabular durch reine Häufigkeitsstatistik, nicht durch Sprachverständnis.
Das Context Window ist ein hartes Limit gemessen in Tokens — wenn es voll ist, gehen ältere Informationen komplett verloren.
Selbst innerhalb des Context Windows vergessen Modelle Informationen in der Mitte (Lost-in-the-Middle-Effekt).
Nächster Artikel: Embeddings — wie diese Tokens zu Vektoren mit Bedeutung werden.
Checkpoint: Tokenisierung
Erkläre in eigenen Worten, warum ChatGPT bei der Frage nach den Buchstaben in 'strawberry' oft scheitert — und was das mit der Tokenisierung zu tun hat.
Nimm den Mini-Korpus 'mach, mache, machen'. Starte mit den Einzelzeichen [m, a, c, h, e, n] und führe die BPE-Merges Schritt für Schritt durch. Welche Tokens entstehen am Ende?
Ein Modell hat ein Context Window von 128k Tokens. Ein Nutzer gibt ein 300-Seiten-Dokument ein. Welche Informationen gehen verloren — und warum nicht gleichmäßig?
Quiz: Tokenisierung
Frage 1 / 5
Was ist der Hauptvorteil der Subword-Tokenisierung gegenüber Wort-Tokenisierung?
1. Was ist der Hauptvorteil der Subword-Tokenisierung gegenüber Wort-Tokenisierung?
☐ A) Subwords sind schneller zu berechnen
☐ B) Subwords erzeugen ein handhabbares Vokabular und können unbekannte Wörter durch Zerlegung in kleinere Stücke verarbeiten
☐ C) Subwords bewahren die exakte Bedeutung jedes Wortes
☐ D) Subwords eliminieren die Notwendigkeit eines Vokabulars komplett
2. Bei BPE wird das Zeichenpaar "t" + "h" zum Token "th" zusammengeführt. Was hat diesen Merge bestimmt?
☐ A) "th" ist eine linguistisch bedeutsame Einheit (Digraph)
☐ B) Ein menschlicher Linguist hat "th" als wichtig markiert
☐ C) "t" und "h" kamen im Trainingskorpus häufiger zusammen vor als jedes andere verbleibende Paar
☐ D) Das Modell hat während der Textgenerierung gelernt, dass "th" nützlich ist
3. Ein BPE-Tokenizer, der überwiegend auf englischem Text trainiert wurde, verarbeitet das deutsche Wort "Handlungsempfehlung" (18 Zeichen). Welches Ergebnis ist am wahrscheinlichsten im Vergleich zum englischen Wort "recommendation" (14 Zeichen)?
☐ A) Beide Wörter erzeugen ungefähr gleich viele Tokens
☐ B) Das deutsche Wort erzeugt deutlich mehr Tokens, weil der Tokenizer weniger deutsche Merges hat
☐ C) Das deutsche Wort erzeugt weniger Tokens, weil deutsche Komposita effizienter sind
☐ D) Beide Wörter werden zeichenweise tokenisiert
4. Du baust einen Kundensupport-Chatbot mit einem 16k-Token Context Window. Die Konversationshistorie eines Kunden umfasst 20.000 Tokens. Was passiert mit den ältesten Nachrichten, und welche Lösung könnte helfen?
☐ A) Das Modell fasst alte Nachrichten automatisch zusammen
☐ B) Die ältesten Nachrichten werden stillschweigend abgeschnitten; RAG könnte relevante vergangene Nachrichten bei Bedarf abrufen
☐ C) Das Modell komprimiert alte Tokens, damit alles hineinpasst
☐ D) Das Context Window erweitert sich automatisch, um die Konversation aufzunehmen
5. Forscher stellten fest, dass ein Modell mit 200k-Token-Fenster eine entscheidende Information auf Seite 150 eines 300-Seiten-Dokuments weniger zuverlässig abruft als Informationen auf Seite 1 oder 300. Was erklärt das?
☐ A) Dem Modell geht bei Seite 150 der Speicher aus
☐ B) Der Attention-Mechanismus verteilt den Fokus ungleichmäßig und bevorzugt Anfang und Ende der Sequenz (Lost-in-the-Middle-Effekt)
☐ C) Seiten in der Mitte werden anders tokenisiert als Seiten an den Rändern
☐ D) Das Modell verarbeitet nur die ersten und letzten 50 Seiten