9

Das große Finale

Wohin LLMs sich entwickeln und alles, was du gelernt hast, in einer Pipeline

Diesen Abschnitt ansehen

Du hast gelernt, wie LLMs von rohem Internettext zu hilfreichen Chat-Assistenten werden — durch Pre-Training, Fine-Tuning und Reinforcement Learning. Aber das Feld entwickelt sich in rasantem Tempo. Hier ist, wohin die Reise geht.

👁️🎤🎬

Multimodale Modelle

Sehen, hören und erschaffen

Moderne LLMs lesen nicht nur Text — sie sehen Bilder, verstehen Audio und generieren Bilder und Videos. Modelle wie GPT-4o, Claude und Gemini können Fotos analysieren, Handschrift lesen, Diagramme interpretieren und Szenen beschreiben. Das funktioniert, indem Bilder und Audio in token-ähnliche Repräsentationen umgewandelt werden, die das Modell zusammen mit Text verarbeitet.

🔍💻🛠️

Tool-Nutzung & Agenten

Vom Antworten zum Handeln

Frühe LLMs konnten nur Text generieren. Heutige Modelle können Werkzeuge nutzen: im Web suchen, Code schreiben und ausführen, APIs aufrufen, Dateien lesen und sogar deinen Computer bedienen. Das verwandelt sie von „Dingen, die Fragen beantworten" in Agenten, die handeln. Ein Agent kann ein Thema über mehrere Quellen recherchieren, einen Bericht schreiben und ihn per E-Mail versenden — alles mit einer einzigen Anweisung.

🧠💡

Reasoning-Modelle

Länger nachdenken, besser antworten

Erinnerst du dich an die DeepSeek-R1-Entdeckung aus dem letzten Kapitel? Diese Idee ist zu einer wichtigen Frontier geworden. Reasoning-Modelle (wie o1, o3, Claude mit erweitertem Denken und DeepSeek-R1) setzen mehr Rechenleistung zur Inferenzzeit ein — sie „denken" eine Kette von Schritten durch, bevor sie antworten. Bei schwierigen Mathematik-, Wissenschafts- und Coding-Problemen verbessert das die Genauigkeit dramatisch. Der Kompromiss: Sie sind langsamer und teurer, können aber Probleme lösen, die zuvor unerreichbar waren.

🌐🔓

Open-Source-Revolution

Modelle für alle

Modelle wie LLaMA, Mistral und DeepSeek werden offen veröffentlicht — jeder kann sie herunterladen, anpassen und ausführen. Das bedeutet, KI ist nicht hinter wenigen Unternehmen eingesperrt. Forscher, Start-ups und Hobbyisten können Modelle für ihre eigenen Bedürfnisse fine-tunen, sie lokal für mehr Privatsphäre ausführen oder völlig neue Anwendungen darauf aufbauen. Der Abstand zwischen offenen und geschlossenen Modellen schrumpft rapide.

Das große Bild: LLMs begannen als Text-Vorhersager, wurden zu konversationellen Assistenten und entwickeln sich jetzt zu multimodalen Agenten, die denken, Werkzeuge nutzen und in der realen Welt handeln können. Der Kernmechanismus — das nächste Token vorhersagen — hat sich nicht verändert. Was sich verändert hat, ist, was als Token zählt (Bilder, Audio, Tool-Aufrufe) und wie viel Denkarbeit vor jeder Vorhersage stattfindet.

Abschlussübung: Die komplette Pipeline aufbauen

Ein letzter Test: Kannst du alle 12 Schritte der LLM-Pipeline aus dem Gedächtnis in die richtige Reihenfolge bringen?

1Das Internet nach Textdaten crawlen
2Reward-Modell auf Präferenzen trainieren
3Supervised Fine-Tuning (SFT)
4BPE-Tokenizer auf den Daten trainieren
5Den Trainingskorpus tokenisieren
6Menschliche Präferenzvergleiche sammeln
7Basismodell auf Benchmarks evaluieren
8Chat-Modell mit Sicherheitsfiltern deployen
9Daten filtern und deduplizieren
10Transformer mit Next-Token-Prediction pre-trainen
11Menschliche Konversationsbeispiele sammeln
12RL-Optimierung mit Reward-Modell (RLHF)