Inference

01.05.2026 13:22

Definition

Inference ist die Durchführung von Vorhersagen mit einem trainierten Modell auf neuen Daten — das typische "Produktions"-Szenario, bei dem ein LLM oder Diffusion-Modell praktisch arbeitet. Im Gegensatz zum Training (wo Gewichte angepasst werden) werden Inference-Gewichte eingefroren; der Trade-off liegt zwischen Latenz, Durchsatz und Qualität, optimiert durch Quantisierung, Batching und KV-Cache-Strategien.

Mechanik

Der Eingabe (Prompt, Bild, etc.) werden nacheinander Schichten des Modells durchlaufen, bis der Output entsteht — bei LLMs Token für Token (Autoregression). Die GPU hält das gesamte Modell im VRAM und verarbeitet die Eingabe; moderne Inference-Server wie vLLM oder llama.cpp nutzen kontinuierliche Batch-Queues und Speculative Decoding, um mehrere Anfragen parallel zu bedienen. Speicher und Berechnung sind oft nicht linear skalierbar — ein 70B-Modell mit Batch-Size 8 verbraucht nicht 8x die Latenz einer Batch-Size 1.

Beispiel

import ollama

# Inference mit lokalem Modell
response = ollama.generate(
    model="mistral:7b",
    prompt="Was ist Machine Learning?",
    stream=False
)

print("Output:", response["response"])
print("Tokens/sec:", response["eval_count"] / response["eval_duration"] * 1e9)
inference_demo.py
Lokal ausführen — Setup für deinen Rechner
Voraussetzungen:
  • Python 3.10 oder neuer installiert. Download: python.org/downloads. Beim Windows-Installer die Option „Add Python to PATH" aktivieren — sonst findet die Konsole `python` nicht.
# 1) Konsole öffnen: Win+R drücken, "powershell" eintippen, Enter.
# 2) Prüfen, ob Python installiert ist:
py --version
# Falls "command not found" -> https://python.org/downloads

# 3) Einmal-Setup (Tool installieren / Modell ziehen):
ollama pull mistral:7b

# 4) Projekt-Setup: venv + Abhängigkeiten
py -m venv .venv
.venv\Scripts\Activate.ps1
pip install ollama

# 5) Code in inference_demo.py speichern (Button oben oder Copy + Editor)
# Dann ausführen:
python inference_demo.py

Quellen