Inferenz ist das Anwenden eines fertig trainierten Modells, um eine Ausgabe zu erzeugen — also jede einzelne Anfrage. Das Modell lernt dabei nicht.
Der Normalbetrieb
Jedes Mal, wenn man ein Modell etwas fragt, läuft Inferenz: Die Eingabe geht durchs Netz, heraus kommt eine Vorhersage. Die Parameter bleiben dabei unverändert — das Modell wendet nur an, was es im Training gelernt hat.
Warum sie zählt
Training passiert einmal, Inferenz millionenfach. Darum entscheidet ihre Effizienz über Geschwindigkeit und Kosten im Alltag — Techniken wie KV-Cache, Quantisierung und Speculative Decoding zielen genau darauf.
Abgrenzung
Inferenz ist das Gegenstück zum Training: anwenden statt lernen.