Überblick
Guides und Dokumentationen zum Setup lokaler LLM-Inferenz auf eigener Hardware. Fokus auf Self-Hosted-Szenarien, Hardware-Kombinationen und praktische Konfiguration mit gängigen Frameworks.
Frameworks und Tools
- OpenWebUI: Web-Interface für lokale Modelle, oft in Kombination mit vLLM oder Ollama
- vLLM: Inference-Engine für optimierte lokale Model-Serving, unterstützt Multi-GPU-Setups
- Hermes Agent: Framework für lokal betriebene KI-Agenten mit strukturierten Workflows
Praktische Setup-Szenarien
Einstiegs-Hardware (Single-GPU)
Gemma 4 zeigt sich auf Mid-Range-Hardware als praktische Option für lokale Inferenz. Tests auf 8-GPU-Racks belegen Performance bei Parsing, Logik und Code-Generierung. Konkrete Komponentenlisten für solche Setups sind dokumentiert.
Multi-GPU-Setups
8-GPU-Racks ermöglichen parallele Inferenz und höhere Durchsätze. Praktische Hardware-Empfehlungen und Performance-Benchmarks helfen bei der Dimensionierung.
Installation und Konfiguration
Hermes Agent mit Qwen3.5
Schritt-für-Schritt-Setup umfasst: - Proxmox-Virtualisierung - Ubuntu-Installation und Basis-Konfiguration - Integration mit OpenWebUI und vLLM - Qwen3.5-Modell-Deployment
Fokus liegt auf Hardware-Konfiguration und praktischen Implementierungsdetails für Homelab-Szenarien.
Modelle für lokale Inferenz
- Gemma 4 (DeepMind): Aktuell evaluiert für lokale Self-Hosted-Setups
- Qwen3.5: Kompatibel mit vLLM und OpenWebUI
- Weitere: abhängig von verfügbarer GPU-Memory und Latenz-Anforderungen
Hardware-Überlegungen
- GPU-Memory ist primärer Limitfaktor für Modellgröße
- CPU und RAM beeinflussen Throughput bei Batched-Inferenz
- Netzwerk-Setup relevant für verteilte Multi-GPU-Szenarien
- Kühlung und Stromversorgung essentiell bei Rack-Setups
Weitere Ressourcen
Praktische Guides dokumentieren komplette Aufbauprozesse von Infrastruktur bis Modell-Integration. Video-Tutorials mit konkreten Komponentenlisten und Performance-Tests helfen bei der Planung eigener Setups.
Einzelnachweise
Quellen
- Hermes Agent Lokal-Setup Guide mit Qwen3.5 und OpenWebUI — Digital Spaceport (YT), 2026-04-02
- Gemma 4: lokales Testverfahren und Hardware-Setup — Digital Spaceport (YT), 2026-04-03