Pretraining ist die erste, große Trainingsphase eines Sprachmodells: Aus sehr großen Textkorpora lernt es per Next-Token-Vorhersage Sprache, Wissen und Muster.
Das Modell verarbeitet Textkorpora im Umfang von Billionen Tokens — Bücher, Webseiten, Code — und löst dabei immer dieselbe Aufgabe: das jeweils nächste Token vorhersagen (Autoregression). Aus Milliarden solcher Vorhersagen entsteht allgemeines Sprachkönnen samt eingelagertem Weltwissen.
Das Vortraining ist die Vorstufe: Es liefert das rohe Foundation Model, das Text fortsetzen kann, aber noch keine Anweisungen befolgt. Erst Instruction Tuning und RLHF machen daraus einen Assistenten.
Pretraining ist die mit Abstand teuerste Phase — Monate Rechenzeit auf tausenden GPUs, Kosten in Millionenhöhe. Deshalb trainieren nur wenige Organisationen Modelle von Grund auf; alle anderen setzen auf fertige Basismodelle und Fine-Tuning.
Die drei Trainingsstufen moderner Sprachmodelle: Pretraining → Instruction Tuning → RLHF. Die erste baut das Können, die beiden anderen formen das Verhalten.