KI-Glossar ·LLM

Inferenz

Auch: Inference, Anwendung

Inferenz ist das Anwenden eines fertig trainierten Modells, um eine Ausgabe zu erzeugen — also jede einzelne Anfrage. Das Modell lernt dabei nicht.

Der Normalbetrieb

Jedes Mal, wenn man ein Modell etwas fragt, läuft Inferenz: Die Eingabe geht durchs Netz, heraus kommt eine Vorhersage. Die Parameter bleiben dabei unverändert — das Modell wendet nur an, was es im Training gelernt hat.

Bedeutung im Betrieb

Training passiert einmal, Inferenz millionenfach. Darum entscheidet ihre Effizienz über Geschwindigkeit und Kosten im Alltag — Techniken wie KV-Cache, Quantisierung und Speculative Decoding zielen genau darauf.

Abgrenzung

Inferenz ist das Gegenstück zum Training: anwenden statt lernen.

Die zweite Bedeutung: logisches Schließen

Das Wort trägt in der KI zwei Bedeutungen, und die ältere ist die andere. In der Logik bezeichnet Inferenz das Ableiten neuer Aussagen aus vorhandenen — aus „Alle Menschen sind sterblich" und „Sokrates ist ein Mensch" folgt „Sokrates ist sterblich". In dieser Lesart ist Inferenz der Kern der Symbolische KI: Ein System hält Wissen in einer Wissensbasis und leitet daraus mit Inferenzregeln neue Schlüsse ab. Auch das probabilistische Schließen in Bayes'schen Netzen heißt Inferenz.

Beide Bedeutungen sind fachlich korrekt und im Gebrauch. Welche gemeint ist, zeigt der Zusammenhang: Im Umfeld von Betrieb, Kosten und Latenz geht es um die Anwendung eines Modells; im Umfeld von Logik, Wissensrepräsentation und Beweisen um das Schließen.

Im Netz verbunden

setzt voraus

LLM

Voraussetzung für

Speculative Decoding Beam Search Greedy Decoding Sampling

nutzt

Quantisierung KV-Cache GPU

abzugrenzen von

Training

Im Wissensnetz ansehen