Tokenisierung

Text in Tokens zerlegen — die Atome der Sprachmodelle

Bevor eine KI deinen Text lesen kann, zerschneidet sie ihn in kleine Stücke, die Tokens genannt werden. Stell dir vor, du schneidest einen Satz in Puzzleteile — aber statt an jedem Leerzeichen zu trennen, nutzt die KI ein schlaueres System namens Byte Pair Encoding.

Häufige Wörter wie "the" oder "hello" bleiben als ein Stück. Ungewöhnliche Wörter werden in kleinere Teile zerlegt. Ein typisches LLM hat einen Wortschatz von etwa 100.000 Tokens — das ist sein gesamtes Alphabet. Das ist wichtig, weil KI-Modelle pro Token abrechnen, nur eine begrenzte Anzahl auf einmal verarbeiten können und — wie du später sehen wirst — sogar beim Buchstabieren Probleme haben, weil sie in Tokens denken, nicht in Buchstaben.

Häufiges Wort = 1 Token

hello

Ungewöhnliches Wort = viele Tokens

hellooooo

Aber warum nicht einfach ganze Wörter verwenden? Ältere Modelle taten genau das — und wenn sie auf ein Wort stießen, das nicht in ihrem Wörterbuch stand, wurde es einfach zu UNBEKANNT. Jede Bedeutung ging verloren. Subwort-Tokenisierung löst dieses Problem: Selbst wenn das Modell "Giga-awesome" noch nie gesehen hat, kennt es Giga, - und awesome einzeln.

Es ist auch viel effizienter. LLMs können nur eine begrenzte Anzahl von Tokens auf einmal verarbeiten. Die Aufteilung nach einzelnen Zeichen würde etwa 5x mehr Tokens verbrauchen als Subwörter — smartere Tokenisierung bedeutet also, dass das Modell deutlich mehr Text auf einmal lesen kann.

Warum das deinen Geldbeutel betrifft: API-Preise werden pro Token berechnet. Da der Tokenizer hauptsächlich auf Englisch trainiert wurde, verbraucht ein Prompt auf Russisch oder Arabisch etwa 3x so viele Tokens wie die gleiche Bedeutung auf Englisch — und kostet 3x so viel.

🎯

Your turn — try it out!

Tokenizer-Sandbox

Tippe etwas ein und sieh, wie die KI es in Tokens zerlegt. Probiere Emojis, Code, andere Sprachen oder falsch geschriebene Wörter!

5Tokens|15Zeichen

"Hello"" world""!"" ""🌍"

Probiere: