Das große Finale
Wohin LLMs sich entwickeln und alles, was du gelernt hast, in einer Pipeline
Diesen Abschnitt ansehenDu hast gelernt, wie LLMs von rohem Internettext zu hilfreichen Chat-Assistenten werden — durch Pre-Training, Fine-Tuning und Reinforcement Learning. Aber das Feld entwickelt sich in rasantem Tempo. Hier ist, wohin die Reise geht.
Multimodale Modelle
Sehen, hören und erschaffen
Moderne LLMs lesen nicht nur Text — sie sehen Bilder, verstehen Audio und generieren Bilder und Videos. Modelle wie GPT-4o, Claude und Gemini können Fotos analysieren, Handschrift lesen, Diagramme interpretieren und Szenen beschreiben. Das funktioniert, indem Bilder und Audio in token-ähnliche Repräsentationen umgewandelt werden, die das Modell zusammen mit Text verarbeitet.
Tool-Nutzung & Agenten
Vom Antworten zum Handeln
Frühe LLMs konnten nur Text generieren. Heutige Modelle können Werkzeuge nutzen: im Web suchen, Code schreiben und ausführen, APIs aufrufen, Dateien lesen und sogar deinen Computer bedienen. Das verwandelt sie von „Dingen, die Fragen beantworten" in Agenten, die handeln. Ein Agent kann ein Thema über mehrere Quellen recherchieren, einen Bericht schreiben und ihn per E-Mail versenden — alles mit einer einzigen Anweisung.
Reasoning-Modelle
Länger nachdenken, besser antworten
Erinnerst du dich an die DeepSeek-R1-Entdeckung aus dem letzten Kapitel? Diese Idee ist zu einer wichtigen Frontier geworden. Reasoning-Modelle (wie o1, o3, Claude mit erweitertem Denken und DeepSeek-R1) setzen mehr Rechenleistung zur Inferenzzeit ein — sie „denken" eine Kette von Schritten durch, bevor sie antworten. Bei schwierigen Mathematik-, Wissenschafts- und Coding-Problemen verbessert das die Genauigkeit dramatisch. Der Kompromiss: Sie sind langsamer und teurer, können aber Probleme lösen, die zuvor unerreichbar waren.
Open-Source-Revolution
Modelle für alle
Modelle wie LLaMA, Mistral und DeepSeek werden offen veröffentlicht — jeder kann sie herunterladen, anpassen und ausführen. Das bedeutet, KI ist nicht hinter wenigen Unternehmen eingesperrt. Forscher, Start-ups und Hobbyisten können Modelle für ihre eigenen Bedürfnisse fine-tunen, sie lokal für mehr Privatsphäre ausführen oder völlig neue Anwendungen darauf aufbauen. Der Abstand zwischen offenen und geschlossenen Modellen schrumpft rapide.
Das große Bild: LLMs begannen als Text-Vorhersager, wurden zu konversationellen Assistenten und entwickeln sich jetzt zu multimodalen Agenten, die denken, Werkzeuge nutzen und in der realen Welt handeln können. Der Kernmechanismus — das nächste Token vorhersagen — hat sich nicht verändert. Was sich verändert hat, ist, was als Token zählt (Bilder, Audio, Tool-Aufrufe) und wie viel Denkarbeit vor jeder Vorhersage stattfindet.
Abschlussübung: Die komplette Pipeline aufbauen
Ein letzter Test: Kannst du alle 12 Schritte der LLM-Pipeline aus dem Gedächtnis in die richtige Reihenfolge bringen?