Qwen 3.6 27B ist eines der spannendsten Open-Weights-Modelle 2026: in einigen Benchmarks dicht an Claude 4.5 Sonnet, dabei mit der Q4_K_M- Quantisierung in 24 GByte VRAM passend. Genau die richtige Groesse, um zu fragen: welche Hardware brauche ich wirklich?
Ein neuer Benchmark-Vergleich auf YouTube hat genau das durchgemessen —
3090, 4090, 5090 mit llama.cpp (Linux, from-source-Build), zusaetzlich
ein Mac Studio M5 Max 128 GB mit MLX. Identisches Modell, identische
Quantisierung. Die Zahlen sind eindeutig — und ehrlich: erschuetternd
unbequem fuer alle, die sich gerade einen 5090 oder Mac Studio gegoennt
haben.
Setup
| Hardware | VRAM/RAM | Engine | Build |
|---|---|---|---|
| RTX 3090 | 24 GByte GDDR6X | llama.cpp | from source |
| RTX 4090 | 24 GByte GDDR6X | llama.cpp | from source |
| RTX 5090 | 32 GByte GDDR7 | llama.cpp | from source |
| Mac Studio M5 Max | 128 GByte Unified | MLX (~10% schneller als llama.cpp auf Mac) | offiziell |
Modell ueberall identisch: Qwen 3.6 27B, Q4_K_M-Quantisierung, ~17 GByte
auf der Disk. Reasoning-Prompts plus klassisches llama-bench.
Ergebnis
| Hardware | Token-Generation | Prompt-Eval | Verbrauch |
|---|---|---|---|
| RTX 5090 | 73.6 T/s | ~4000 T/s | 590 W |
| RTX 4090 | 46.8 T/s | ~3000 T/s | — |
| RTX 3090 | 40.3 T/s | ~1300 T/s | 335 W |
| Mac M5 Max 128 GB | 17–20 T/s | — | ~80 W |
Beobachtung 1: Die 5090 ist nicht nur schneller, sondern wird in laengeren Generation-Runs zusaetzlich besser — anders als bei MoE-Modellen, wo der Throughput mit der Token-Zahl typischerweise faellt. Das spricht fuer Qwen 27B als dichtes (non-MoE) Modell, dessen Compute durchgehend ausgelastet wird.
Beobachtung 2: 3090 und 4090 liegen ueberraschend dicht beieinander — 46.8 vs 40.3 T/s sind nur +16%. Wer von der 3090 auf die 4090 upgraden will, kann das sparen.
Beobachtung 3: Der Mac M5 Max — Apples aktueller Top-Chip mit 128 GByte Unified Memory — liegt mit knapp 20 T/s unter der 3090. Selbst die fuenf Jahre alte Consumer-GPU schlaegt den teuersten Mac-SoC in reiner Inferenz-Geschwindigkeit fuer ein 27B-Modell.
Preis pro Token
Hier wird's interessant. Realistische Strassenpreise (Stand 2026):
| Hardware | Preis (ungefaehr) | T/s | T/s pro 100 € |
|---|---|---|---|
| RTX 3090 gebraucht | ~600 € | 40.3 | 6.7 |
| RTX 5090 neu | ~2.300 € | 73.6 | 3.2 |
| RTX 4090 gebraucht | ~1.500 € | 46.8 | 3.1 |
| Mac Studio M5 Max 128 GB | ~4.100 € | 18.5 | 0.45 |
Die 3090 liefert mehr als doppelt so viele Tokens pro investiertem Euro wie die 5090 — und ueber fuenfzehnmal mehr als der Mac. Das ist kein Rundungsfehler, das ist eine Magnitude.
Wo das Bild kippt
Drei Faelle, in denen die 3090 nicht mehr P/L-Koenig ist:
1. Modelle ueber 30B Parameter. Qwen 3.6 27B passt in 24 GByte. Llama 4 Scout (109B-A17B), gpt-oss-120b oder Qwen3.5 (397B-A17B) tun das nicht. Hier muss man entweder auf MoE-Architekturen mit kleinem Active-Subset ausweichen oder auf ein Geraet mit mehr Speicher — und dort dreht sich das Bild: der M5 Max kann 100B+ MoEs nativ laden, die 3090 schiebt sie auf den Disk-Swap, was Inferenz unbrauchbar macht.
2. 24/7-Betrieb. Eine 3090 unter Volllast zieht 335 W gegenueber 80 W beim Mac. Ueber ein Jahr Dauerbetrieb sind das ~22.000 vs ~700 kWh — bei 0.30 €/kWh also 6.400 € Strom-Differenz. Fuer Hobby-Workloads irrelevant; fuer einen Always-On-Coding-Agent genau die richtige Groessenordnung um die Mac-Investition zu rechtfertigen.
3. Prompt-Eval-Lastige Workloads. Lange Eingaben verarbeiten — das ist die Disziplin, in der die 3090 mit 1300 T/s am schwaechsten ist (5090: 4000 T/s, 3x schneller). Wer 100-Seiten-Dokumente zusammenfasst statt kurze Fragen stellt, sollte auf die 5090 schauen.
Empfehlung
- Tueftler-Setup: gebrauchte RTX 3090 fuer ~600 €, dazu PSU und ein vorhandenes ATX-Gehaeuse. Laeuft Qwen 3.6 27B mit 40 T/s — schnell genug fuer interaktiven Chat, Coding, lokale Agents. Beste P/L-Wahl.
- Aufruest-Pfad: 3090 → 4090 lohnt sich kaum. 3090 → 5090 macht Sinn, wenn Prompt-Eval oder >24-GByte-Modelle auf der Roadmap stehen.
- Mac-Sweet-Spot: nicht der M5 Max fuer 27B-Inferenz — sondern wenn Speicher (100B+ MoEs), Effizienz oder Tooling-Pipeline (MLX-Oekosystem) zaehlt. Die 128-GB-Unified-Klasse hat einen anderen Job als reine Token-Throughput-Maximierung.
Mehr Modelle in der 24-GByte- und 128-GByte-Klasse mit Q4-Speicherbedarf + Top-Benchmark im Hardware-Fit-Tab des Pyground-Leaderboards.
Quelle: YouTube-Video „Qwen 3.6 27B local benchmark — 3090 vs 4090 vs
5090 vs M5 Max". Alle
Performance-Zahlen stammen aus den dort gezeigten Messungen
(llama-bench fuer NVIDIA, MLX-Bench fuer Mac). Preisangaben sind grobe
Schaetzungen anhand aktueller Strassenpreise; eigene Recherche
empfohlen. Dieser Artikel ist eine Einordnung der Video-Ergebnisse aus
Pyground-Sicht — nicht eine eigenstaendige Messung.
Kommentare
Noch keine Kommentare. Schreib den ersten.
Melde dich an, um zu kommentieren.