Unified-Memory-Workstations: 128 GB Speicher für lokale KI

01.05.2026 09:51

Wer große Sprachmodelle selbst betreiben will, ohne in Rechenzentrums-GPUs zu investieren, hat seit 2025 eine bezahlbare Option: Unified-Memory- Workstations in der 128-GB-Klasse. Drei Geräte teilen sich diesen Markt aktuell — alle mit gemeinsamem Speicher für CPU und GPU, in einem kompakten Gehäuse, ab etwa 3.000 Euro.

Die drei Kandidaten

Gerät SoC RAM-Bandbreite Straßenpreis*
HP Z2 Mini G1a AMD Ryzen AI Max+ 395 273 GB/s ~3.000 €
Asus Ascent GX10 Nvidia GB10 (DGX-Spark-Architektur) 273 GB/s ~3.000 €
Apple Mac Studio M4 Max Apple M4 Max 546 GB/s ~4.100 €

* Stand iX 5/2026, mit jeweils 128 GByte LPDDR5X und 1 TByte SSD.

Apple hat die doppelte Speicherbandbreite — vermutlich durch ein Dual-Channel-512-Bit-Interface gegenüber 2×256 Bit (Nvidia) bzw. 4×128 Bit (AMD). AMD und Apple/Nvidia unterscheiden sich zudem in der GPU-Speicher-Verwaltung: bei AMD muss man die Zuteilung im BIOS fix festlegen (max. 96 GByte für die GPU), Apple und Nvidia teilen dynamisch.

Warum nicht einfach eine Consumer-GPU?

Eine RTX 4090 mit 24 GByte VRAM oder eine RTX 5090 mit 32 GByte schaffen Modelle bis ~30 Milliarden Parameter — etwa Qwen3-Coder-30B-A3B oder Devstral Small 2. In die 100-Milliarden-Klasse (gpt-oss-120b, Llama 4 Scout) reicht der Speicher nicht.

Die nächste Stufe — Profi-GPUs wie die RTX PRO 6000 mit 96 GByte — kostet allein etwa so viel wie ein Mac Studio M3 Ultra. Genau in diese Lücke zielen die Unified-Memory-Geräte: viel Speicher, integrierte GPU, deutlich günstiger.

Was läuft darauf?

Im PyGround-Leaderboard führen wir die Hardware-Klasse „≤ 128 GB Unified" als eigene Sicht. Modelle, die in dieser Klasse laufen (Q4-Quantisierung):

  • Llama 4 Scout (109B-A17B MoE) — ~65 GByte Q4_K_M
  • DeepSeek V4 Flash (284B-A13B MoE) — ~120 GByte Q4_K_M, knapp
  • Qwen3-Coder-30B-A3B — ~18.6 GByte
  • Gemma 3 27B IT — ~16.5 GByte

Die iX-Autoren testen zusätzlich gpt-oss-120b (5B aktiv, ~60 GByte Q4) und Step 3.5 Flash (196B-A11B, ~94 GByte). Letzteres läuft auf DGX Spark und M4 Max, nicht aber auf der AMD-Workstation wegen der 96-GByte-GPU-Grenze.

Wichtig: MoE-Modelle (Mixture-of-Experts) sind die eigentliche Killer- Anwendung dieser Geräteklasse. Sie haben viele Parameter im Speicher, aktivieren pro Token aber nur einen Bruchteil — gut für integrierte GPUs, die viel Speicher, aber moderate Rechenleistung haben. Dichte Modelle vergleichbarer Größe (Devstral 2 mit 123B Parametern) sind nach iX-Messung "mit unter 3 T/s unbenutzbar".

Prefill vs. Decode — Wo welches Gerät führt

Die drei Geräte verhalten sich für die zwei Hauptlasten sehr unter­schiedlich:

  • Prefill (lange Eingabe verarbeiten, z.B. 100-Seiten-Dokument zusammenfassen): rechenintensiv. DGX Spark führt deutlich — laut iX-Tests durchschnittlich +260 % gegenüber AMD bei dichten Modellen.
  • Decode (kurze Frage, ausführliche Antwort): durch Speicher- bandbreite limitiert. Apple gewinnt — der M4 Max liegt je nach Modell 30 bis 140 % vor dem GB10.

AMDs Ryzen AI Max+ liegt in beiden Disziplinen hinten. Apple punktet zusätzlich mit dem MLX-Ökosystem: laut iX sind aktuell etwa 11.000 MLX-quantisierte Modelle auf HuggingFace verfügbar — Apple hat damit GPTQ und AWQ schon überholt.

Wenn 128 GB nicht reichen: M3 Ultra

Wer noch größer fahren will, greift zum Mac Studio M3 Ultra mit bis zu 512 GByte Unified Memory (~9.200 €). Damit laufen dann Modelle wie MiniMax M2.5 (230B-A11B) oder Qwen3.5 (397B-A17B), die laut iX-Recherche im Intelligence Index von artificialanalysis.ai mit Claude 4.5 Sonnet, Grok 4 und Gemini 3 Flash gleichauf liegen.

Empfehlung

Aus den iX-Tests destilliert:

  • DGX Spark / Asus Ascent GX10 — beste Prefill-Geschwindigkeit, mit 200-Gbit-Ethernet zu Mini-Clustern koppelbar; aber Software- Inbetriebnahme komplex (FlashAttention auf ARM64+CUDA).
  • AMD Ryzen AI Max+ 395 — gute Software-Unterstützung über ROCm; aber RAM-Aufteilung nicht dynamisch und insgesamt schwächste Leistung.
  • Apple Mac Studio M4 Max — beste Gesamtperformance, ausgereifteste Tooling-Pipeline (MLX); dafür höchster Preis.

Pyground-Leaderboard

Welches Modell aktuell auf einer 128-GB-Maschine das Maximum herausholt, zeigt unser Hardware-Fit-Tab im Leaderboard:

→ KI-Modell-Leaderboard öffnen

Pro Modell ist dort der Q4-Speicherbedarf, der Top-Benchmark und die Quelle aufgeführt — sortierbar, mit Klick auf den Wert geht's direkt zur belegten Quelle.


Quelle: René Peinl & Thomas Weber, Unified-Memory-Workstations für lokale KI, iX 5/2026. Alle Performance-Zahlen, Hardware-Spezifikationen und Vergleichswerte in diesem Artikel beziehen sich auf die Messungen dieser Ausgabe.

Stichworte

Frontier-Modelle Infrastruktur Open Source Hardware

Kommentare

Noch keine Kommentare. Schreib den ersten.

Melde dich an, um zu kommentieren.