Lokale Inference & Hardware-Setup

Überblick

Lokale KI-Inferenz auf eigener Hardware wird zunehmend praktikabel und wirtschaftlich. Für Entwickler:innen bietet sich ein vielfältiges Spektrum: von Consumer-Laptops mit Apple Silicon über DIY-Homelab-Server bis zu spezialisierter Enterprise-Hardware. Die Kostenrechnung gegen Cloud-APIs wird mit leistungsstarker lokaler Hardware immer fragwürdiger, besonders bei wiederkehrenden Workloads.

Apple Silicon & MLX

MLX ermöglicht hervorragende Performance auf Apple-Hardware. Aktuelle Benchmarks zeigen, dass die MLX-Stack etwa doppelte Geschwindigkeit gegenüber GGUF-Formaten erreicht (bis zu 118 Token/s auf M5 Max vs. ca. 60 Token/s).

Relevante Modelle: - Gemma 4 läuft stabil auf M4/M5 Max - Qwen 3.5 und 3.6 sind auf lokaler Apple-Hardware durchführbar - Agentic Coding-Workloads sind bereits praktisch einsetzbar

Kostenargument: Besitzer von M4/M5-Macs sollten langfristige Cloud-API-Kosten neu bewerten, wenn lokale Inferenz alle Anforderungen deckt – besonders relevant für Agenten und private Deployments.

GPU-basierte Homelab-Server

Architektur & Hardware-Auswahl

Ein praktisches Referenz-Setup für 8-GPU-Homelab-Server: - CPU: AMD EPYC 7702 (Plattform für Skalierbarkeit) - RAM: 256 GB Systemspeicher - Power: hochwertige Netzteile (Corsair/Seasonic) mit ausreichendem Headroom - Verkabelung & Kühlung: GPU-Risers, aktive Belüftung, Thermomanagement

Kritische Überlegungen: - Stromversorgung und PSU-Redundanz für Stabilität - GPU-Riser-Qualität für PCIe-Zuverlässigkeit - Thermisches Management bei Mehrfach-GPU-Setups

GPU-Optionen

Nvidia (etabliert): - RTX 3090, 4090: hohe Performance, große VRAM - Umfangreiche Software-Support (CUDA, vLLM, etc.)

Intel ARC B70 32GB (Budget-Alternative): - Preis deutlich unter 1000 USD - Interessant für Kostenoptimierung - Benchmark-Tests mit vLLM zeigen variable Performance – abhängig vom Modell und Quantisierung - Weniger Software-Ökosystem als Nvidia, aber wachsend

Entscheidungskriterium: Intel ARC kann wirtschaftlich interessant sein, wenn Projekte tolerant gegenüber längeren Inference-Latenzen sind. Für latency-sensitive Workloads bleibt Nvidia oft effizienter pro Kosteneinheit.

Modelle & Benchmarks

Aktuelle lokale Modelle

Qwen 3.6 35B / 27B: - Prompt-Processing: ca. 4.5k Token/s auf RTX 4090 - Stabil auf Consumer-Hardware (3090, 4090) - Quantisierungen: Q2, Q4, Q8 verfügbar für Memory/Speed-Trade-off - Tool-Calling teilweise experimentell; Agent-Integration (Hermes OpenWebUI) noch in Entwicklung

Gemma 4: - Verschiedene Größen verfügbar - Stabile Performance auf M-Series und GPU-Hardware - Gutes Preis-Performance-Verhältnis

Quantisierungen

Unterschiedliche Quantisierungsgrade (Q2/Q4/Q8) ermöglichen Hardware-Anpassung: - Q2: Maximale Speichereffizienz, kleine Modelle oder stark begrenzte VRAM - Q4: Balance zwischen Qualität und Speicher (Standard für 24–48GB VRAM) - Q8: Höhere Genauigkeit, passt auf große VRAM (≥48GB)

Tools & Software-Stack

  • MLX: Optimiert für Apple Silicon
  • llama.cpp: C++-basierter Inference-Engine, portabel, schnell
  • vLLM: Python-Framework für effiziente Batch-Inferenz, unterstützt Nvidia und (experimentell) Intel ARC
  • Hermes OpenWebUI: Lokale Web-UI für Modell-Serving und Agent-Integration (experimentell für Tool-Calling)

Agentic Workflows

Lokale Agenten-Deployments werden praktikabel: - M5 Max kann agentic Coding-Workloads bereits vollständig lokal ausführen - Qwen/Gemma unterstützen Tool-Calling, aber OpenWebUI-Integration noch nicht vollständig stabil - Homelabs mit 8-GPU-Setup ermöglichen parallele Agenten-Workloads

Wirtschaftlichkeit

Wann rentiert sich lokale Inferenz? 1. Hohe Inference-Volume (>10k Token/Tag): Amortisation lokaler Hardware in Monaten 2. Datenschutz/Privacy: Keine API-Calls, Daten bleiben lokal 3. Latenz: Lokale Inferenz kann <100ms ermöglichen (API oft 500–2000ms) 4. Langfristige Kosten: Nach initianem Hardware-Investment keine laufenden Gebühren

Wann bleibt Cloud sinnvoll? - Gelegentliche, unvorhersehbare Last-Spitzen - Sehr große Modelle (>70B), die keine Quantisierung vertragen - Kein Admin-Budget für Hardware-Setup und Betrieb

Erste Schritte

  1. Geräteklasse festlegen: M-Mac? Bestehendes Gaming-Setup? Neuer Server?
  2. Modell-Wahl: Qwen 3.6 und Gemma 4 sind gute Referenzen (2026)
  3. Quantisierung testen: Mit Q4 starten, bei Speicherproblemen zu Q2, bei Performance-Anforderungen zu Q8
  4. Benchmark auf eigener Hardware: vLLM oder llama.cpp mit realistischen Prompts testen
  5. Tool-Ökosystem testen: Hermes/OpenWebUI für Web-UI, ggf. API-Wrapper bauen

Quellen

Weitere Sub-Topics zu „Open Source"