4

Inferenz

Textgenerierung mit Temperatur und Sampling

Diesen Abschnitt ansehen

Wir haben also ein neuronales Netz mit Bergen von Text trainiert — aber wie generiert es tatsächlich eine Antwort, wenn du eine Nachricht eintippst? Dieser Schritt heißt Inferenz: Das Modell nimmt deine Eingabe und sagt vorher, was als Nächstes kommt, ein Token nach dem anderen.

Deine Eingabe

„Erzähl mir etwas über..."

Inferenz

LLM

Ausgabe

„Hier ist, was..."

Das Netzwerk gibt eine Wahrscheinlichkeit für jedes mögliche nächste Token aus. Es könnte immer das höchste wählen (Greedy Decoding), aber das erzeugt repetitiven, langweiligen Text. Stattdessen sampeln LLMs aus der Wahrscheinlichkeitsverteilung — wie das Werfen eines gewichteten Würfels. Ein Token mit 30% Wahrscheinlichkeit wird in 30% der Fälle gewählt, eines mit 5% hat immer noch eine Chance. Deshalb kann derselbe Prompt jedes Mal andere Antworten erzeugen.

❄️

T = 0

Vorhersagbar

🔥

T = 2

Kreativ

Temperatur: die Zufälligkeit steuern

Aber wie viel Zufälligkeit möchtest du? Das steuert die Temperatur-Einstellung — ein Regler zwischen „langweilig aber zuverlässig" und „kreativ aber chaotisch". Bei Temperatur 0 überspringt das Modell das Sampling komplett und wählt immer das Top-Wort (Greedy-Modus). Bei Temperatur 2 werden die Wahrscheinlichkeiten so abgeflacht, dass auch seltene Wörter faire Chancen haben.

Temperatur-Labor

Prompt: „The weather today is ___"

Temperature1.0
sunny
30.0%
cloudy
20.0%
warm
15.0%
cold
10.0%
rainy
8.0%
beautiful
7.0%
perfect
5.0%
terrible
3.0%
foggy
2.0%
🎯

Your turn — try it out!

1
2
3

Vorhersagbar

Stelle die Temperatur so ein, dass die vorhersagbarste Ausgabe erzeugt wird (immer das Top-Token).

Deine Temperatur: 1.0