Vom Basismodell zum Assistenten

Wie aus Basismodellen hilfreiche Chat-Assistenten werden

2019 galt OpenAIs GPT-2 mit 1,5 Milliarden Parametern, trainiert auf ~10 Milliarden Tokens, als gefährlich leistungsfähig (Radford et al., 2019). Heutige Frontier-Modelle haben Hunderte Milliarden Parameter, trainiert auf Billionen von Tokens — über 1.000x mehr Daten.

Aber Größe ist nicht alles. Nach dem Pre-Training erhält man ein Basismodell — im Wesentlichen eine ausgefeilte Autovervollständigung. Es führt einfach den Text fort, den man ihm gibt. Tippe „What is the capital of France?" ein und es ergänzt vielleicht „What is the capital of Germany?", weil Fragen oft in Listen vorkommen. Es antwortet dir nicht — es ergänzt dich.

📝

Basismodell

= Autovervollständigung

Setzt deinen Text fort

💬

Chat-Modell

= Assistent

Beantwortet deine Frage

Wie wird also aus einem Basismodell ein hilfreicher Assistent? Durch eine dreistufige Trainings-Pipeline. Stell es dir vor wie die Ausbildung eines Arztes: Zuerst geht er zur Uni (Pre-Training auf Internettexten), dann macht er seine Facharztausbildung mit praktischer Erfahrung (Supervised Fine-Tuning auf Konversationen), und schließlich lernt er aus Patientenfeedback (RLHF — darauf gehen wir in einem späteren Kapitel ausführlich ein).

📚

Pre-Training

Das Internet lesen

💬

SFT

Konversationen üben

👍

RLHF

Präferenzen lernen

Das Modell braucht außerdem ein spezielles Format — ein sogenanntes Chat-Template — damit es weiß, wo deine Nachrichten enden und seine Antworten beginnen. Spezielle Marker-Tokens zeigen dem Modell, wer spricht:

▶ start:system

You are a friendly assistant.

■ end

▶ start:user

Hello, how are you?

■ end

▶ start:assistant

I'm doing well! How can I help?

■ end

Diese Marker sind für dich unsichtbar, aber entscheidend dafür, dass das Modell die Rollen unterscheiden kann.

🎯

Your turn — try it out!

Pipeline ordnen

Ziehe diese Stufen in die richtige Reihenfolge:

1Supervised Fine-Tuning (SFT) — Konversationen üben

2Pre-Training — Sprache aus Internettexten lernen

3RLHF — aus menschlichem Präferenz-Feedback lernen