RTX 3090 als P/L-Koenig: Qwen 3.6 27B im Hardware-Vergleich

03.05.2026 10:55

Qwen 3.6 27B ist eines der spannendsten Open-Weights-Modelle 2026: in einigen Benchmarks dicht an Claude 4.5 Sonnet, dabei mit der Q4_K_M- Quantisierung in 24 GByte VRAM passend. Genau die richtige Groesse, um zu fragen: welche Hardware brauche ich wirklich?

Ein neuer Benchmark-Vergleich auf YouTube hat genau das durchgemessen — 3090, 4090, 5090 mit llama.cpp (Linux, from-source-Build), zusaetzlich ein Mac Studio M5 Max 128 GB mit MLX. Identisches Modell, identische Quantisierung. Die Zahlen sind eindeutig — und ehrlich: erschuetternd unbequem fuer alle, die sich gerade einen 5090 oder Mac Studio gegoennt haben.

Setup

Hardware VRAM/RAM Engine Build
RTX 3090 24 GByte GDDR6X llama.cpp from source
RTX 4090 24 GByte GDDR6X llama.cpp from source
RTX 5090 32 GByte GDDR7 llama.cpp from source
Mac Studio M5 Max 128 GByte Unified MLX (~10% schneller als llama.cpp auf Mac) offiziell

Modell ueberall identisch: Qwen 3.6 27B, Q4_K_M-Quantisierung, ~17 GByte auf der Disk. Reasoning-Prompts plus klassisches llama-bench.

Ergebnis

Hardware Token-Generation Prompt-Eval Verbrauch
RTX 5090 73.6 T/s ~4000 T/s 590 W
RTX 4090 46.8 T/s ~3000 T/s
RTX 3090 40.3 T/s ~1300 T/s 335 W
Mac M5 Max 128 GB 17–20 T/s ~80 W

Beobachtung 1: Die 5090 ist nicht nur schneller, sondern wird in laengeren Generation-Runs zusaetzlich besser — anders als bei MoE-Modellen, wo der Throughput mit der Token-Zahl typischerweise faellt. Das spricht fuer Qwen 27B als dichtes (non-MoE) Modell, dessen Compute durchgehend ausgelastet wird.

Beobachtung 2: 3090 und 4090 liegen ueberraschend dicht beieinander — 46.8 vs 40.3 T/s sind nur +16%. Wer von der 3090 auf die 4090 upgraden will, kann das sparen.

Beobachtung 3: Der Mac M5 Max — Apples aktueller Top-Chip mit 128 GByte Unified Memory — liegt mit knapp 20 T/s unter der 3090. Selbst die fuenf Jahre alte Consumer-GPU schlaegt den teuersten Mac-SoC in reiner Inferenz-Geschwindigkeit fuer ein 27B-Modell.

Preis pro Token

Hier wird's interessant. Realistische Strassenpreise (Stand 2026):

Hardware Preis (ungefaehr) T/s T/s pro 100 €
RTX 3090 gebraucht ~600 € 40.3 6.7
RTX 5090 neu ~2.300 € 73.6 3.2
RTX 4090 gebraucht ~1.500 € 46.8 3.1
Mac Studio M5 Max 128 GB ~4.100 € 18.5 0.45

Die 3090 liefert mehr als doppelt so viele Tokens pro investiertem Euro wie die 5090 — und ueber fuenfzehnmal mehr als der Mac. Das ist kein Rundungsfehler, das ist eine Magnitude.

Wo das Bild kippt

Drei Faelle, in denen die 3090 nicht mehr P/L-Koenig ist:

1. Modelle ueber 30B Parameter. Qwen 3.6 27B passt in 24 GByte. Llama 4 Scout (109B-A17B), gpt-oss-120b oder Qwen3.5 (397B-A17B) tun das nicht. Hier muss man entweder auf MoE-Architekturen mit kleinem Active-Subset ausweichen oder auf ein Geraet mit mehr Speicher — und dort dreht sich das Bild: der M5 Max kann 100B+ MoEs nativ laden, die 3090 schiebt sie auf den Disk-Swap, was Inferenz unbrauchbar macht.

2. 24/7-Betrieb. Eine 3090 unter Volllast zieht 335 W gegenueber 80 W beim Mac. Ueber ein Jahr Dauerbetrieb sind das ~22.000 vs ~700 kWh — bei 0.30 €/kWh also 6.400 € Strom-Differenz. Fuer Hobby-Workloads irrelevant; fuer einen Always-On-Coding-Agent genau die richtige Groessenordnung um die Mac-Investition zu rechtfertigen.

3. Prompt-Eval-Lastige Workloads. Lange Eingaben verarbeiten — das ist die Disziplin, in der die 3090 mit 1300 T/s am schwaechsten ist (5090: 4000 T/s, 3x schneller). Wer 100-Seiten-Dokumente zusammenfasst statt kurze Fragen stellt, sollte auf die 5090 schauen.

Empfehlung

  • Tueftler-Setup: gebrauchte RTX 3090 fuer ~600 €, dazu PSU und ein vorhandenes ATX-Gehaeuse. Laeuft Qwen 3.6 27B mit 40 T/s — schnell genug fuer interaktiven Chat, Coding, lokale Agents. Beste P/L-Wahl.
  • Aufruest-Pfad: 3090 → 4090 lohnt sich kaum. 3090 → 5090 macht Sinn, wenn Prompt-Eval oder >24-GByte-Modelle auf der Roadmap stehen.
  • Mac-Sweet-Spot: nicht der M5 Max fuer 27B-Inferenz — sondern wenn Speicher (100B+ MoEs), Effizienz oder Tooling-Pipeline (MLX-Oekosystem) zaehlt. Die 128-GB-Unified-Klasse hat einen anderen Job als reine Token-Throughput-Maximierung.

Mehr Modelle in der 24-GByte- und 128-GByte-Klasse mit Q4-Speicherbedarf + Top-Benchmark im Hardware-Fit-Tab des Pyground-Leaderboards.


Quelle: YouTube-Video „Qwen 3.6 27B local benchmark — 3090 vs 4090 vs 5090 vs M5 Max". Alle Performance-Zahlen stammen aus den dort gezeigten Messungen (llama-bench fuer NVIDIA, MLX-Bench fuer Mac). Preisangaben sind grobe Schaetzungen anhand aktueller Strassenpreise; eigene Recherche empfohlen. Dieser Artikel ist eine Einordnung der Video-Ergebnisse aus Pyground-Sicht — nicht eine eigenstaendige Messung.

Stichworte

Benchmarks & Evals Infrastruktur Open Source Hardware

Kommentare

Noch keine Kommentare. Schreib den ersten.

Melde dich an, um zu kommentieren.