8

Reinforcement Learning

Wie RL und menschliches Feedback LLMs über überwachtes Lernen hinausbringen

Diesen Abschnitt ansehen

KI mit menschlich geschriebenen Beispielen zu trainieren stößt irgendwann an eine Grenze — das Modell kann nur so gut sein wie seine Lehrer. Reinforcement Learning (RL) durchbricht dieses Limit mit einer einfachen, aber mächtigen Idee: Statt dem Modell die „richtige" Antwort zu zeigen, lässt man es viele verschiedene Antworten ausprobieren und aus denen lernen, die funktionieren.

Denk ans Fahrradfahren lernen. Niemand gibt dir ein Lehrbuch über „Die korrekte Art zu balancieren". Stattdessen steigst du auf, wackelst, fällst, korrigierst — und findest schließlich durch Versuch und Irrtum heraus, was funktioniert. Das ist Reinforcement Learning: Lernen durch Ausprobieren, nicht durch Nachmachen.

🎲

Generieren

100 verschiedene Antworten

Verifizieren

Welche sind korrekt?

🏆

Belohnen

Mit den besten trainieren

Der RL-Kreislauf: Viele Kandidaten generieren, prüfen welche gut sind, und die erfolgreichen Strategien verstärken.

Damit dieser Kreislauf funktioniert, braucht man eine entscheidende Zutat: eine Möglichkeit zu prüfen, ob die Antwort richtig ist. Ein Mathe-Problem hat eine korrekte Antwort, die man verifizieren kann. Ein Stück Code besteht seine Tests oder nicht. Aber „schreibe ein schönes Gedicht"? Das ist subjektiv — es gibt keinen automatischen Prüfer.

🔢Mathematik
Antwort prüfen
Leicht zu verifizieren
💻Code
Tests ausführen
Leicht zu verifizieren
🧩Logikrätsel
Lösung verifizieren
Leicht zu verifizieren
🌍Übersetzung
Mit Referenz vergleichen
Mittel
📝Zusammenfassung
Kernfakten prüfen
Mittel
✏️Kreatives Schreiben
Subjektiver Geschmack
Schwer zu verifizieren
💬Lebensberatung
Keine klare richtige Antwort
Schwer zu verifizieren

RL funktioniert am besten, wenn Antworten automatisch verifiziert werden können. Je einfacher die Verifizierung, desto enger die Feedback-Schleife.

Das ist ein Hauptgrund, warum KI-Coding sich so dramatisch verbessert hat. Code ist der perfekte RL-Spielplatz: Du schreibst eine Funktion, führst die Test-Suite aus und weißt sofort, ob sie funktioniert. Kein menschlicher Reviewer nötig — der Computer prüft die Antwort für dich, millionenfach.

Beispiel: RL für Code-Generierung

Aufgabe:

"Write a function that reverses a linked list"

Modell generiert 100 verschiedene Lösungen

31 bestehen

alle Tests grün

54 scheitern

falsche Ausgabe

15 Abstürze

Laufzeitfehler

Mit den 31 erfolgreichen trainieren — das Modell lernt, wie guter Code aussieht

Kein menschlicher Labeler nötig. Die Test-Suite ist das Reward-Signal — schnell, günstig und objektiv.

Dasselbe Prinzip gilt für Mathematik (Antwort prüfen), Logikrätsel (Lösung verifizieren) und sogar Spiele (hast du gewonnen?). Überall, wo ein Computer das Ergebnis beurteilen kann, kann RL Millionen von Trainingsbeispielen generieren — weit mehr, als jeder Mensch schreiben könnte.

Eine überraschende Entdeckung: DeepSeek-R1 zeigte, dass Modelle durch RL nicht nur bessere Antworten bekommen — sie lernen, bei schwierigen Problemen härter nachzudenken. Ohne explizit dazu angeleitet zu werden, beginnen sie, mehr Denkschritte für schwere Fragen aufzuwenden und einfache schnell zu lösen. Das Modell entdeckt Chain-of-Thought-Reasoning von selbst.

Aber schau dir die rote Zone im Spektrum oben an. „Ist dieses Gedicht schön?" „Ist diese Erklärung für einen 10-Jährigen verständlich?" „Ist dieser Rat hilfreich, ohne schädlich zu sein?" Für diese Fragen gibt es keine Test-Suite. Doch Menschen erkennen intuitiv eine gute Antwort, wenn sie eine sehen.

Hier kommt RLHF — Reinforcement Learning from Human Feedback — ins Spiel. Statt eines automatisierten Prüfers nutzt man Menschen als Reward-Signal.

📋

Zwei Antworten

A und B

👤

Menschliche Bewerter

Wählen die bessere

🎯

Reward-Modell

Lernt Präferenzen

RLHF: Zeige Menschen zwei KI-Antworten, frage welche besser ist, und trainiere ein Reward-Modell auf Tausenden solcher Vergleiche.

Die zentrale Erkenntnis: Es ist viel einfacher zu beurteilen, welche Antwort besser ist, als selbst eine perfekte Antwort zu schreiben. Du musst kein Koch sein, um zu wissen, welches von zwei Gerichten besser schmeckt. Tausende solcher Vergleiche trainieren ein „Reward-Modell", das lernt vorherzusagen, was Menschen bevorzugen — und dieses Modell wird zum automatisierten Bewerter für RL. So lernen Modelle, „Ich bin mir nicht sicher" zu sagen, statt selbstbewusst Dinge zu erfinden, und gefährliche Anfragen abzulehnen, während sie für alles andere hilfreich bleiben.

🎯

Your turn — try it out!

1
2

RL-Turnier (1/2)

Spiele die Rolle des automatisierten Verifizierers. Das Modell hat 6 Lösungen generiert — wähle die korrekten aus, um damit zu trainieren:

Aufgabe:

What is 17 x 23?

17 x 23 = 17 x 20 + 17 x 3 = 340 + 51 = 391

17 x 23 = 391

17 x 23 = 17 x 20 + 17 x 3 = 340 + 41 = 381

17 x 23 = 20 x 23 - 3 x 23 = 460 - 69 = 391

17 x 23 is approximately 400

17 x 23 = 17 + 17 + ... (23 times) = 401