Definition
Inference ist die Durchführung von Vorhersagen mit einem trainierten Modell auf neuen Daten — das typische "Produktions"-Szenario, bei dem ein LLM oder Diffusion-Modell praktisch arbeitet. Im Gegensatz zum Training (wo Gewichte angepasst werden) werden Inference-Gewichte eingefroren; der Trade-off liegt zwischen Latenz, Durchsatz und Qualität, optimiert durch Quantisierung, Batching und KV-Cache-Strategien.
Mechanik
Der Eingabe (Prompt, Bild, etc.) werden nacheinander Schichten des Modells durchlaufen, bis der Output entsteht — bei LLMs Token für Token (Autoregression). Die GPU hält das gesamte Modell im VRAM und verarbeitet die Eingabe; moderne Inference-Server wie vLLM oder llama.cpp nutzen kontinuierliche Batch-Queues und Speculative Decoding, um mehrere Anfragen parallel zu bedienen. Speicher und Berechnung sind oft nicht linear skalierbar — ein 70B-Modell mit Batch-Size 8 verbraucht nicht 8x die Latenz einer Batch-Size 1.
Beispiel
import ollama
# Inference mit lokalem Modell
response = ollama.generate(
model="mistral:7b",
prompt="Was ist Machine Learning?",
stream=False
)
print("Output:", response["response"])
print("Tokens/sec:", response["eval_count"] / response["eval_duration"] * 1e9)
Lokal ausführen — Setup für deinen Rechner
- Python 3.10 oder neuer installiert. Download: python.org/downloads. Beim Windows-Installer die Option „Add Python to PATH" aktivieren — sonst findet die Konsole `python` nicht.
# 1) Konsole öffnen: Win+R drücken, "powershell" eintippen, Enter.
# 2) Prüfen, ob Python installiert ist:
py --version
# Falls "command not found" -> https://python.org/downloads
# 3) Einmal-Setup (Tool installieren / Modell ziehen):
ollama pull mistral:7b
# 4) Projekt-Setup: venv + Abhängigkeiten
py -m venv .venv
.venv\Scripts\Activate.ps1
pip install ollama
# 5) Code in inference_demo.py speichern (Button oben oder Copy + Editor)
# Dann ausführen:
python inference_demo.py
# 1) Terminal öffnen:
# macOS: Cmd+Leertaste -> "Terminal" eintippen -> Enter
# Linux: Strg+Alt+T (in den meisten Distros)
# 2) Prüfen, ob Python installiert ist:
python3 --version
# Falls fehlt:
# macOS: brew install python (oder https://python.org/downloads)
# Debian: sudo apt install python3 python3-venv
# Fedora: sudo dnf install python3
# 3) Einmal-Setup (Tool installieren / Modell ziehen):
ollama pull mistral:7b
# 4) Projekt-Setup: venv + Abhängigkeiten
python3 -m venv .venv
source .venv/bin/activate
pip install ollama
# 5) Code in inference_demo.py speichern (Button oben oder Copy + Editor)
# Dann ausführen:
python inference_demo.py