Wer große Sprachmodelle selbst betreiben will, ohne in Rechenzentrums-GPUs zu investieren, hat seit 2025 eine bezahlbare Option: Unified-Memory- Workstations in der 128-GB-Klasse. Drei Geräte teilen sich diesen Markt aktuell — alle mit gemeinsamem Speicher für CPU und GPU, in einem kompakten Gehäuse, ab etwa 3.000 Euro.
Die drei Kandidaten
| Gerät | SoC | RAM-Bandbreite | Straßenpreis* |
|---|---|---|---|
| HP Z2 Mini G1a | AMD Ryzen AI Max+ 395 | 273 GB/s | ~3.000 € |
| Asus Ascent GX10 | Nvidia GB10 (DGX-Spark-Architektur) | 273 GB/s | ~3.000 € |
| Apple Mac Studio M4 Max | Apple M4 Max | 546 GB/s | ~4.100 € |
* Stand iX 5/2026, mit jeweils 128 GByte LPDDR5X und 1 TByte SSD.
Apple hat die doppelte Speicherbandbreite — vermutlich durch ein Dual-Channel-512-Bit-Interface gegenüber 2×256 Bit (Nvidia) bzw. 4×128 Bit (AMD). AMD und Apple/Nvidia unterscheiden sich zudem in der GPU-Speicher-Verwaltung: bei AMD muss man die Zuteilung im BIOS fix festlegen (max. 96 GByte für die GPU), Apple und Nvidia teilen dynamisch.
Warum nicht einfach eine Consumer-GPU?
Eine RTX 4090 mit 24 GByte VRAM oder eine RTX 5090 mit 32 GByte schaffen Modelle bis ~30 Milliarden Parameter — etwa Qwen3-Coder-30B-A3B oder Devstral Small 2. In die 100-Milliarden-Klasse (gpt-oss-120b, Llama 4 Scout) reicht der Speicher nicht.
Die nächste Stufe — Profi-GPUs wie die RTX PRO 6000 mit 96 GByte — kostet allein etwa so viel wie ein Mac Studio M3 Ultra. Genau in diese Lücke zielen die Unified-Memory-Geräte: viel Speicher, integrierte GPU, deutlich günstiger.
Was läuft darauf?
Im PyGround-Leaderboard führen wir die Hardware-Klasse „≤ 128 GB Unified" als eigene Sicht. Modelle, die in dieser Klasse laufen (Q4-Quantisierung):
- Llama 4 Scout (109B-A17B MoE) — ~65 GByte Q4_K_M
- DeepSeek V4 Flash (284B-A13B MoE) — ~120 GByte Q4_K_M, knapp
- Qwen3-Coder-30B-A3B — ~18.6 GByte
- Gemma 3 27B IT — ~16.5 GByte
Die iX-Autoren testen zusätzlich gpt-oss-120b (5B aktiv, ~60 GByte Q4) und Step 3.5 Flash (196B-A11B, ~94 GByte). Letzteres läuft auf DGX Spark und M4 Max, nicht aber auf der AMD-Workstation wegen der 96-GByte-GPU-Grenze.
Wichtig: MoE-Modelle (Mixture-of-Experts) sind die eigentliche Killer- Anwendung dieser Geräteklasse. Sie haben viele Parameter im Speicher, aktivieren pro Token aber nur einen Bruchteil — gut für integrierte GPUs, die viel Speicher, aber moderate Rechenleistung haben. Dichte Modelle vergleichbarer Größe (Devstral 2 mit 123B Parametern) sind nach iX-Messung "mit unter 3 T/s unbenutzbar".
Prefill vs. Decode — Wo welches Gerät führt
Die drei Geräte verhalten sich für die zwei Hauptlasten sehr unterschiedlich:
- Prefill (lange Eingabe verarbeiten, z.B. 100-Seiten-Dokument zusammenfassen): rechenintensiv. DGX Spark führt deutlich — laut iX-Tests durchschnittlich +260 % gegenüber AMD bei dichten Modellen.
- Decode (kurze Frage, ausführliche Antwort): durch Speicher- bandbreite limitiert. Apple gewinnt — der M4 Max liegt je nach Modell 30 bis 140 % vor dem GB10.
AMDs Ryzen AI Max+ liegt in beiden Disziplinen hinten. Apple punktet zusätzlich mit dem MLX-Ökosystem: laut iX sind aktuell etwa 11.000 MLX-quantisierte Modelle auf HuggingFace verfügbar — Apple hat damit GPTQ und AWQ schon überholt.
Wenn 128 GB nicht reichen: M3 Ultra
Wer noch größer fahren will, greift zum Mac Studio M3 Ultra mit bis zu 512 GByte Unified Memory (~9.200 €). Damit laufen dann Modelle wie MiniMax M2.5 (230B-A11B) oder Qwen3.5 (397B-A17B), die laut iX-Recherche im Intelligence Index von artificialanalysis.ai mit Claude 4.5 Sonnet, Grok 4 und Gemini 3 Flash gleichauf liegen.
Empfehlung
Aus den iX-Tests destilliert:
- DGX Spark / Asus Ascent GX10 — beste Prefill-Geschwindigkeit, mit 200-Gbit-Ethernet zu Mini-Clustern koppelbar; aber Software- Inbetriebnahme komplex (FlashAttention auf ARM64+CUDA).
- AMD Ryzen AI Max+ 395 — gute Software-Unterstützung über ROCm; aber RAM-Aufteilung nicht dynamisch und insgesamt schwächste Leistung.
- Apple Mac Studio M4 Max — beste Gesamtperformance, ausgereifteste Tooling-Pipeline (MLX); dafür höchster Preis.
Pyground-Leaderboard
Welches Modell aktuell auf einer 128-GB-Maschine das Maximum herausholt, zeigt unser Hardware-Fit-Tab im Leaderboard:
→ KI-Modell-Leaderboard öffnen
Pro Modell ist dort der Q4-Speicherbedarf, der Top-Benchmark und die Quelle aufgeführt — sortierbar, mit Klick auf den Wert geht's direkt zur belegten Quelle.
Quelle: René Peinl & Thomas Weber, Unified-Memory-Workstations für lokale KI, iX 5/2026. Alle Performance-Zahlen, Hardware-Spezifikationen und Vergleichswerte in diesem Artikel beziehen sich auf die Messungen dieser Ausgabe.
Kommentare
Noch keine Kommentare. Schreib den ersten.
Melde dich an, um zu kommentieren.