Wir haben also ein neuronales Netz mit Bergen von Text trainiert — aber wie generiert es tatsächlich eine Antwort, wenn du eine Nachricht eintippst? Dieser Schritt heißt Inferenz: Das Modell nimmt deine Eingabe und sagt vorher, was als Nächstes kommt, ein Token nach dem anderen.
Deine Eingabe
„Erzähl mir etwas über..."
Inferenz
LLM
Ausgabe
„Hier ist, was..."
Das Netzwerk gibt eine Wahrscheinlichkeit für jedes mögliche nächste Token aus. Es könnte immer das höchste wählen (Greedy Decoding), aber das erzeugt repetitiven, langweiligen Text. Stattdessen sampeln LLMs aus der Wahrscheinlichkeitsverteilung — wie das Werfen eines gewichteten Würfels. Ein Token mit 30% Wahrscheinlichkeit wird in 30% der Fälle gewählt, eines mit 5% hat immer noch eine Chance. Deshalb kann derselbe Prompt jedes Mal andere Antworten erzeugen.
❄️
T = 0
Vorhersagbar
🔥
T = 2
Kreativ
Temperatur: die Zufälligkeit steuern
Aber wie viel Zufälligkeit möchtest du? Das steuert die Temperatur-Einstellung — ein Regler zwischen „langweilig aber zuverlässig" und „kreativ aber chaotisch". Bei Temperatur 0 überspringt das Modell das Sampling komplett und wählt immer das Top-Wort (Greedy-Modus). Bei Temperatur 2 werden die Wahrscheinlichkeiten so abgeflacht, dass auch seltene Wörter faire Chancen haben.
Temperatur-Labor
Prompt: „The weather today is ___"
Your turn — try it out!
Vorhersagbar
Stelle die Temperatur so ein, dass die vorhersagbarste Ausgabe erzeugt wird (immer das Top-Token).
Nicht ganz. Sehr niedrige Temperatur macht die Verteilung extrem spitz. (Ziel: 0-0.2)