Trainingsdaten
Wie Internetdaten für das Training gesammelt und aufbereitet werden
Diesen Abschnitt ansehenUm eine KI zu bauen, die Sprache versteht, braucht man eine kaum vorstellbare Menge an Text. Wir reden hier nicht von einer Bibliothek — wir reden von einem erheblichen Teil des gesamten Internets.
Wie viele Daten?
FineWeb ist einer der größten öffentlichen Trainingsdatensätze — und trotzdem nur ein Teil dessen, was in ein Modell einfließt.
Aber man kann nicht einfach rohe Webseiten in ein Modell kippen. Das Internet ist chaotisch — Spam, Duplikate, kaputtes HTML, toxische Inhalte. Die Datenaufbereitung ist der Bereich, in dem der Großteil der Arbeit anfällt.
🌐
Crawlen
Rohe HTML-Seiten
🧹
Extrahieren
HTML, Werbung, Navigation entfernen
🔍
Deduplizieren
Gleicher Artikel 1000x? Einen behalten
✅
Filtern
Qualität & Sicherheit
Der Großteil der Rohdaten wird verworfen. FineWeb behielt nur ca. 15% der von Common Crawl gesammelten Seiten.
Was macht gute Trainingsdaten aus?
Behalten:
- Korrekte, faktische Inhalte
- Gut geschriebener Text
- Lehrreich oder informativ
- Mehrere Sprachen
Verwerfen:
- SEO-Spam / Clickbait
- Toxische oder hasserfüllte Inhalte
- Unlesbares HTML / Code-Artefakte
- Doppelte Standardtexte
Your turn — try it out!
Überprüfe diese Textbeispiele und entscheide, welche für das Training behalten und welche verworfen werden sollen.
Photosynthesis is the process by which plants convert light energy into chemical energy. This process occurs primarily in the chloroplasts of plant cells, using chlorophyll to absorb sunlight.
Sauberer Bildungsinhalt mit korrekten wissenschaftlichen Informationen — hervorragende Trainingsdaten.
BUY NOW!!! Best deals on cheap electronics!!! Click here for FREE iPhone!!! Limited time offer!!! You won't believe these prices!!! Act now before it's too late!!!
SEO-Spam / Clickbait ohne Bildungswert und mit manipulativer Sprache.
Die Quantenmechanik beschreibt das Verhalten von Teilchen auf atomarer und subatomarer Ebene. Sie wurde im fruhen 20. Jahrhundert entwickelt und revolutionierte unser Verstandnis der Physik.
Sauberer Bildungsinhalt auf Deutsch — mehrsprachige Daten helfen dem Modell, verschiedene Sprachen zu lernen.
asdf jkl; asdf jkl; the the the the the the the the the. Error 404. Page not found. Cookie consent banner. Subscribe to our newsletter. Loading... Please wait...
Unleserliche Web-Artefakte, repetitiver Text und UI-Element-Scraping — kein nützlicher Inhalt.