KI-Glossar ·Llm

Inferenz

Auch: Inference, Anwendung

Inferenz ist das Anwenden eines fertig trainierten Modells, um eine Ausgabe zu erzeugen — also jede einzelne Anfrage. Das Modell lernt dabei nicht.

Der Normalbetrieb

Jedes Mal, wenn man ein Modell etwas fragt, läuft Inferenz: Die Eingabe geht durchs Netz, heraus kommt eine Vorhersage. Die Parameter bleiben dabei unverändert — das Modell wendet nur an, was es im Training gelernt hat.

Warum sie zählt

Training passiert einmal, Inferenz millionenfach. Darum entscheidet ihre Effizienz über Geschwindigkeit und Kosten im Alltag — Techniken wie KV-Cache, Quantisierung und Speculative Decoding zielen genau darauf.

Abgrenzung

Inferenz ist das Gegenstück zum Training: anwenden statt lernen.

Im Netz verbunden

setzt voraus
LLM
abzugrenzen von
Im Wissensnetz ansehen