Vom Basismodell zum Assistenten
Wie aus Basismodellen hilfreiche Chat-Assistenten werden
Diesen Abschnitt ansehen2019 galt OpenAIs GPT-2 mit 1,5 Milliarden Parametern, trainiert auf ~10 Milliarden Tokens, als gefährlich leistungsfähig (Radford et al., 2019). Heutige Frontier-Modelle haben Hunderte Milliarden Parameter, trainiert auf Billionen von Tokens — über 1.000x mehr Daten.
Aber Größe ist nicht alles. Nach dem Pre-Training erhält man ein Basismodell — im Wesentlichen eine ausgefeilte Autovervollständigung. Es führt einfach den Text fort, den man ihm gibt. Tippe „What is the capital of France?" ein und es ergänzt vielleicht „What is the capital of Germany?", weil Fragen oft in Listen vorkommen. Es antwortet dir nicht — es ergänzt dich.
📝
Basismodell
= Autovervollständigung
Setzt deinen Text fort
💬
Chat-Modell
= Assistent
Beantwortet deine Frage
Wie wird also aus einem Basismodell ein hilfreicher Assistent? Durch eine dreistufige Trainings-Pipeline. Stell es dir vor wie die Ausbildung eines Arztes: Zuerst geht er zur Uni (Pre-Training auf Internettexten), dann macht er seine Facharztausbildung mit praktischer Erfahrung (Supervised Fine-Tuning auf Konversationen), und schließlich lernt er aus Patientenfeedback (RLHF — darauf gehen wir in einem späteren Kapitel ausführlich ein).
📚
Pre-Training
Das Internet lesen
💬
SFT
Konversationen üben
👍
RLHF
Präferenzen lernen
Das Modell braucht außerdem ein spezielles Format — ein sogenanntes Chat-Template — damit es weiß, wo deine Nachrichten enden und seine Antworten beginnen. Spezielle Marker-Tokens zeigen dem Modell, wer spricht:
You are a friendly assistant.
Hello, how are you?
I'm doing well! How can I help?
Diese Marker sind für dich unsichtbar, aber entscheidend dafür, dass das Modell die Rollen unterscheiden kann.
Your turn — try it out!
Pipeline ordnen
Ziehe diese Stufen in die richtige Reihenfolge: