Reinforcement Learning
Wie RL und menschliches Feedback LLMs über überwachtes Lernen hinausbringen
Diesen Abschnitt ansehenKI mit menschlich geschriebenen Beispielen zu trainieren stößt irgendwann an eine Grenze — das Modell kann nur so gut sein wie seine Lehrer. Reinforcement Learning (RL) durchbricht dieses Limit mit einer einfachen, aber mächtigen Idee: Statt dem Modell die „richtige" Antwort zu zeigen, lässt man es viele verschiedene Antworten ausprobieren und aus denen lernen, die funktionieren.
Denk ans Fahrradfahren lernen. Niemand gibt dir ein Lehrbuch über „Die korrekte Art zu balancieren". Stattdessen steigst du auf, wackelst, fällst, korrigierst — und findest schließlich durch Versuch und Irrtum heraus, was funktioniert. Das ist Reinforcement Learning: Lernen durch Ausprobieren, nicht durch Nachmachen.
🎲
Generieren
100 verschiedene Antworten
✅
Verifizieren
Welche sind korrekt?
🏆
Belohnen
Mit den besten trainieren
Der RL-Kreislauf: Viele Kandidaten generieren, prüfen welche gut sind, und die erfolgreichen Strategien verstärken.
Damit dieser Kreislauf funktioniert, braucht man eine entscheidende Zutat: eine Möglichkeit zu prüfen, ob die Antwort richtig ist. Ein Mathe-Problem hat eine korrekte Antwort, die man verifizieren kann. Ein Stück Code besteht seine Tests oder nicht. Aber „schreibe ein schönes Gedicht"? Das ist subjektiv — es gibt keinen automatischen Prüfer.
RL funktioniert am besten, wenn Antworten automatisch verifiziert werden können. Je einfacher die Verifizierung, desto enger die Feedback-Schleife.
Das ist ein Hauptgrund, warum KI-Coding sich so dramatisch verbessert hat. Code ist der perfekte RL-Spielplatz: Du schreibst eine Funktion, führst die Test-Suite aus und weißt sofort, ob sie funktioniert. Kein menschlicher Reviewer nötig — der Computer prüft die Antwort für dich, millionenfach.
Beispiel: RL für Code-Generierung
Aufgabe:
"Write a function that reverses a linked list"
Modell generiert 100 verschiedene Lösungen
31 bestehen
alle Tests grün
54 scheitern
falsche Ausgabe
15 Abstürze
Laufzeitfehler
Mit den 31 erfolgreichen trainieren — das Modell lernt, wie guter Code aussieht
Kein menschlicher Labeler nötig. Die Test-Suite ist das Reward-Signal — schnell, günstig und objektiv.
Dasselbe Prinzip gilt für Mathematik (Antwort prüfen), Logikrätsel (Lösung verifizieren) und sogar Spiele (hast du gewonnen?). Überall, wo ein Computer das Ergebnis beurteilen kann, kann RL Millionen von Trainingsbeispielen generieren — weit mehr, als jeder Mensch schreiben könnte.
Eine überraschende Entdeckung: DeepSeek-R1 zeigte, dass Modelle durch RL nicht nur bessere Antworten bekommen — sie lernen, bei schwierigen Problemen härter nachzudenken. Ohne explizit dazu angeleitet zu werden, beginnen sie, mehr Denkschritte für schwere Fragen aufzuwenden und einfache schnell zu lösen. Das Modell entdeckt Chain-of-Thought-Reasoning von selbst.
Aber schau dir die rote Zone im Spektrum oben an. „Ist dieses Gedicht schön?" „Ist diese Erklärung für einen 10-Jährigen verständlich?" „Ist dieser Rat hilfreich, ohne schädlich zu sein?" Für diese Fragen gibt es keine Test-Suite. Doch Menschen erkennen intuitiv eine gute Antwort, wenn sie eine sehen.
Hier kommt RLHF — Reinforcement Learning from Human Feedback — ins Spiel. Statt eines automatisierten Prüfers nutzt man Menschen als Reward-Signal.
📋
Zwei Antworten
A und B
👤
Menschliche Bewerter
Wählen die bessere
🎯
Reward-Modell
Lernt Präferenzen
RLHF: Zeige Menschen zwei KI-Antworten, frage welche besser ist, und trainiere ein Reward-Modell auf Tausenden solcher Vergleiche.
Die zentrale Erkenntnis: Es ist viel einfacher zu beurteilen, welche Antwort besser ist, als selbst eine perfekte Antwort zu schreiben. Du musst kein Koch sein, um zu wissen, welches von zwei Gerichten besser schmeckt. Tausende solcher Vergleiche trainieren ein „Reward-Modell", das lernt vorherzusagen, was Menschen bevorzugen — und dieses Modell wird zum automatisierten Bewerter für RL. So lernen Modelle, „Ich bin mir nicht sicher" zu sagen, statt selbstbewusst Dinge zu erfinden, und gefährliche Anfragen abzulehnen, während sie für alles andere hilfreich bleiben.
Your turn — try it out!
RL-Turnier (1/2)
Spiele die Rolle des automatisierten Verifizierers. Das Modell hat 6 Lösungen generiert — wähle die korrekten aus, um damit zu trainieren:
Aufgabe:
What is 17 x 23?
17 x 23 = 17 x 20 + 17 x 3 = 340 + 51 = 391
✓ 117 x 23 = 391
✓ 0.817 x 23 = 17 x 20 + 17 x 3 = 340 + 41 = 381
✗ 017 x 23 = 20 x 23 - 3 x 23 = 460 - 69 = 391
✓ 117 x 23 is approximately 400
✗ 017 x 23 = 17 + 17 + ... (23 times) = 401
✗ 0