Limitierungen

Ungleichmäßige Intelligenz, Tokenisierungs-Eigenheiten und Grenzen beim Schlussfolgern

LLMs können Gedichte schreiben, die mit professionellen Dichtern mithalten — doch sie behaupten selbstsicher, dass 9,11 größer ist als 9,9. Sie übersetzen fehlerfrei zwischen 100 Sprachen — können aber die r's in „strawberry" nicht zählen. Forscher Ethan Mollick nennt das die „jagged frontier" — scharfe Spitzen übermenschlicher Fähigkeit direkt neben tiefen Tälern des Versagens.

Warum können sie keine Buchstaben zählen? Weil LLMs Tokens sehen, nicht Zeichen — „strawberry" wird zu strawberry, wobei die einzelnen r's über Chunk-Grenzen hinweg verborgen werden. Diese Tokenisierungs-Blindheit erklärt viele der tiefen Täler oben.

🎯

Your turn — try it out!

Beurteile die KI (1/5)

Ein Nutzer hat der KI die folgende Frage gestellt. Ist die Antwort der KI richtig oder falsch?

Prompt

Is 9.11 larger than 9.9?

KI-Antwort

Yes, 9.11 is larger than 9.9 because 11 is greater than 9.

Zahlen

Knifflig! Die Antwort der KI ist falsch.

9,9 ist größer (0,9 > 0,11). Das Modell vergleicht „11" mit „9", als wären es ganze Zahlen statt Dezimalstellen — ein Nebeneffekt der Tokenisierung von Zahlen.