6

Halluzinationen & Wissen

Warum LLMs Dinge erfinden und wie man das abmildern kann

Diesen Abschnitt ansehen

KI-Modelle erfinden manchmal Dinge — sie behaupten mit voller Überzeugung „Fakten", die völlig falsch sind. Das nennt man Halluzination. Das passiert, weil das Modell Fakten nicht wie eine Datenbank speichert. Es hat Milliarden von Seiten in statistische Muster komprimiert — welche Wörter tendenziell auf andere Wörter folgen. Wenn du eine Frage stellst, generiert es die plausibelste Fortsetzung, egal ob sie tatsächlich wahr ist.

Halluzination in Aktion

KI-generierter juristischer Schriftsatz:

"This principle was established in Varghese v. China Southern Airlines, 925 F.3d 1339 (11th Cir. 2019)."

Das sieht aus wie ein Verweis auf einen echten Gerichtsfall — ist aber komplett erfunden. Der Fallname, die Nummern, das Gericht — alles ausgedacht, aber perfekt formatiert. 2023 nutzte ein New Yorker Anwalt ChatGPT, um einen juristischen Schriftsatz zu verfassen, und reichte gefälschte Zitate genau wie dieses ein. Der Richter fand es heraus, und der Anwalt wurde mit 5.000 Dollar bestraft. Die ganze Geschichte lesen →

Das ist das Kernproblem: Das Modell hat kein internes „Vertrauensmeter", das mit faktischer Genauigkeit verknüpft ist. Jedes Token, das es generiert, wird nach Plausibilität gewählt, nicht nach Wahrheit — deshalb können erfundene Details genauso autoritativ klingen wie echte. Richtig klingen und richtig sein sind zwei verschiedene Dinge.

Zu verstehen, woher Wissen kommt, hilft dir, diese Fehler zu erkennen. Es befindet sich an zwei Orten: Parameter (Fakten, die während des Trainings ins Modell eingebrannt wurden — wie ein Lehrbuch, das du auswendig gelernt hast) und das Kontextfenster (Informationen, die du in der aktuellen Konversation bereitstellst — wie ein offenes Notizbuch auf deinem Schreibtisch).

🧠

Parameter

Dauerhaftes Wissen

Beim Training gelernt

vs

📝

Kontextfenster

Temporäre Informationen

Stellst du jedes Mal bereit

Moderne Systeme mildern Halluzinationen mit Websuche, Tool-Nutzung und Retrieval-Augmented Generation (RAG) ab — sie lassen das Modell Dinge nachschlagen, statt sich allein auf sein Gedächtnis zu verlassen. Aber sie können nicht vollständig eliminiert werden. Das Modell generiert seine Antwort immer noch Token für Token und wählt das, was am wahrscheinlichsten klingt — und manchmal ist „am wahrscheinlichsten" einfach nicht wahr.

Warum nicht einfach jeden Satz auf Fakten prüfen? Das Modell generiert Text ein Token nach dem anderen — es müsste mitten im Satz verifizieren, bevor es überhaupt weiß, was es sagen wird. Manche Systeme prüfen im Nachhinein (erst generieren, dann verifizieren), aber das ist langsam, teuer und immer noch nicht perfekt.

🎯

Your turn — try it out!

1
2

Halluzinations-Detektiv

Ist jede Aussage ein Fakt oder ein verbreiteter Mythos/eine Halluzination?

"Der Eiffelturm ist 330 Meter hoch."

"Die Chinesische Mauer ist aus dem Weltraum mit bloßem Auge sichtbar."

"Kraken haben drei Herzen."

"Albert Einstein ist in der Schule in Mathematik durchgefallen."

"Menschen nutzen nur 10% ihres Gehirns."