KI-Glossar ·LLM

Pretraining

Auch: Vortraining, Pre-Training

Pretraining ist die erste, große Trainingsphase eines Sprachmodells: Aus sehr großen Textkorpora lernt es per Next-Token-Vorhersage Sprache, Wissen und Muster.

Ablauf

Das Modell verarbeitet Textkorpora im Umfang von Billionen Tokens — Bücher, Webseiten, Code — und löst dabei immer dieselbe Aufgabe: das jeweils nächste Token vorhersagen (Autoregression). Aus Milliarden solcher Vorhersagen entsteht allgemeines Sprachkönnen samt eingelagertem Weltwissen.

Die Vorsilbe 'pre'

Das Vortraining ist die Vorstufe: Es liefert das rohe Foundation Model, das Text fortsetzen kann, aber noch keine Anweisungen befolgt. Erst Instruction Tuning und RLHF machen daraus einen Assistenten.

Der Aufwand

Pretraining ist die mit Abstand teuerste Phase — Monate Rechenzeit auf tausenden GPUs, Kosten in Millionenhöhe. Deshalb trainieren nur wenige Organisationen Modelle von Grund auf; alle anderen setzen auf fertige Basismodelle und Fine-Tuning.

Einordnung

Die drei Trainingsstufen moderner Sprachmodelle: Pretraining → Instruction Tuning → RLHF. Die erste baut das Können, die beiden anderen formen das Verhalten.

Im Netz verbunden

ist ein/eine

Training

Voraussetzung für

Foundation Model

abzugrenzen von

Fine-Tuning

Im Wissensnetz ansehen