Neuronales Netz

Wie Milliarden von Parametern das nächste Token vorhersagen

Du tippst „The capital of France is" in ChatGPT ein und drückst Enter. Was passiert jetzt? Deine Tokens aus dem vorherigen Kapitel werden in ein neuronales Netz eingespeist — ein riesiges Geflecht aus Milliarden von Zahlen, die beim Training sorgfältig angepasst wurden. Jedes Token durchläuft Dutzende von Schichten, und bei jeder Schicht fragt sich das Modell im Wesentlichen: „Welche der bisherigen Wörter sind am wichtigsten, um herauszufinden, was als Nächstes kommt?" Dieser Prozess wird Attention genannt.

Wie groß ist dieses Netzwerk?

GPT-2

1,5 Mrd.

GPT-4

~1,8 Bio.

LLaMA 3

405 Mrd.

Jeder Parameter ist eine einzelne Dezimalzahl (wie 0,0237). Milliarden dieser winzigen Stellschrauben, die beim Training angepasst wurden, kodieren alles, was das Modell weiß.

Eingabe

Tokens

Verarbeitung

Neuronales Netz

Ausgabe

Wahrscheinlichkeiten

Wenn das Modell zum Beispiel „capital" verarbeitet, lernt es, besonders auf „France" zu achten — weil das Land bestimmt, um welche Hauptstadt es geht. Nachdem alle Schichten durchlaufen sind, gibt das Netzwerk eine Wahrscheinlichkeit für jedes mögliche nächste Token in seinem Vokabular aus — etwa 100.000 Optionen. Für unseren Prompt könnte es 92% für „Paris" vergeben, 3% für „the" und winzige Bruchteile für alles andere. Das Modell „weiß" die Antwort nie — es sagt nur vorher, welches Token am wahrscheinlichsten als Nächstes kommt, ein Token nach dem anderen.

🎯

Your turn — try it out!

Wähle das wahrscheinlichste nächste Token (Runde 1/4)

Prompt:

"The capital of France is" ___

Welches Token kommt am wahrscheinlichsten als Nächstes?

Nicht ganz — das wahrscheinlichste Token ist „Paris".

Vollständige Wahrscheinlichkeitsverteilung:

Paris

92.0%

the

3.0%

1.0%

located

0.8%

known

0.5%

one

0.4%

called

0.3%

not

0.2%