Inferenz

Textgenerierung mit Temperatur und Sampling

Wir haben also ein neuronales Netz mit Bergen von Text trainiert — aber wie generiert es tatsächlich eine Antwort, wenn du eine Nachricht eintippst? Dieser Schritt heißt Inferenz: Das Modell nimmt deine Eingabe und sagt vorher, was als Nächstes kommt, ein Token nach dem anderen.

Deine Eingabe

„Erzähl mir etwas über..."

→

Inferenz

LLM

→

Ausgabe

„Hier ist, was..."

Das Netzwerk gibt eine Wahrscheinlichkeit für jedes mögliche nächste Token aus. Es könnte immer das höchste wählen (Greedy Decoding), aber das erzeugt repetitiven, langweiligen Text. Stattdessen sampeln LLMs aus der Wahrscheinlichkeitsverteilung — wie das Werfen eines gewichteten Würfels. Ein Token mit 30% Wahrscheinlichkeit wird in 30% der Fälle gewählt, eines mit 5% hat immer noch eine Chance. Deshalb kann derselbe Prompt jedes Mal andere Antworten erzeugen.

❄️

T = 0

Vorhersagbar

🔥

T = 2

Kreativ

Temperatur: die Zufälligkeit steuern

Aber wie viel Zufälligkeit möchtest du? Das steuert die Temperatur-Einstellung — ein Regler zwischen „langweilig aber zuverlässig" und „kreativ aber chaotisch". Bei Temperatur 0 überspringt das Modell das Sampling komplett und wählt immer das Top-Wort (Greedy-Modus). Bei Temperatur 2 werden die Wahrscheinlichkeiten so abgeflacht, dass auch seltene Wörter faire Chancen haben.

Temperatur-Labor

Prompt: „The weather today is ___"

Temperature1.0

sunny

30.0%

cloudy

20.0%

warm

15.0%

cold

10.0%

rainy

8.0%

beautiful

7.0%

perfect

5.0%

terrible

3.0%

foggy

2.0%

🎯

Your turn — try it out!

Vorhersagbar

Stelle die Temperatur so ein, dass die vorhersagbarste Ausgabe erzeugt wird (immer das Top-Token).

Deine Temperatur: 1.0

Nicht ganz. Sehr niedrige Temperatur macht die Verteilung extrem spitz. (Ziel: 0-0.2)