SubQ: Architektursprung oder Marketing? Eine Analyse

07.05.2026 09:17

Ein US-amerikanisches Startup behauptet, das zentrale Skalierungsproblem aktueller Sprachmodelle gelöst zu haben: 12 Millionen Token Kontext, 300-fach niedrigere Kosten als Claude und 52-fach schnellere Inferenz. Ob die Versprechen halten, ist offen — ein öffentlicher Hands-on-Zugang existiert bislang nicht. Die folgende Einordnung stützt sich auf die veröffentlichten Technical Reports, Aussagen des SubQ-Teams sowie die Reaktionen aus Hacker-News- und Twitter-Threads.

Hinweis: Ein eigener Hands-on-Test war zum Zeitpunkt dieser Analyse nicht möglich (Warteliste). Die Aussagen beziehen sich ausschließlich auf öffentlich dokumentierte Daten.

Wer ist SubQ?

Am 5. Mai 2026 ist Subquadratic Inc. (Miami) mit dem Modell „SubQ One Million Preview" live gegangen. Im Mittelpunkt steht ein behauptetes Forschungsmodell mit 12 Millionen Token Context Window — eine Größenordnung jenseits aller aktuellen Production-Modelle:

Modell Context Window
Claude Opus 4.7 1 Million
GPT-5.5 1 Million
Gemini 3.1 Pro 1 Million
Grok 4 2 Millionen
SubQ (Forschung) 12 Millionen

12 Millionen Token entsprechen ungefähr:

  • 16× „Krieg und Frieden" von Tolstoi,
  • der kompletten Python-3.13-Standardbibliothek (mit Reserve),
  • 6 Monaten Pull Requests gegen das React-Repo.

In Kombination mit einem 52-fach niedrigeren Compute-Bedarf gegenüber Flash Attention wäre dies ein Architektursprung. Hinter SubQ steht ein Team von 11 PhDs aus Meta, Google, Oxford, Cambridge, ByteDance, Adobe und Microsoft. Funding: 29 Millionen Dollar Seed. Investoren sind unter anderem Justin Mateen (Tinder-Cofounder) und Javier Villamizar (Softbank Vision Fund).

Warum Long Context heute teuer ist

Aktuelle Frontier-Modelle sind Transformer, deren Attention- Berechnung quadratisch mit der Eingabelänge skaliert. Bei einer Million Token entspricht das rund einer Billion Token-Paaren; bei 12 Millionen Token rund 144 Billionen Vergleichen — die überwiegende Mehrheit davon ohne semantischen Wert. Trotzdem werden sie berechnet.

Mini-Glossar: Der KV-Cache speichert die Key-Value-Vektoren aller bisher gesehenen Token. Er wächst quadratisch mit der Kontextlänge.

Magic.dev nennt als Vergleichswert: Llama 3.1 (405 Mrd. Parameter) benötigt für einen 100-Millionen-Token-KV-Cache 638 H100-GPUs pro User. Dieser Ressourcenverbrauch ist der Grund, warum aktuell kein Labor brauchbar über 2 Millionen Token hinauskommt.

Der technische Ansatz: SSA

SubQ nennt sein Verfahren SSA — Subquadratic Sparse Attention (in einzelnen Blogposts auch als „Selective Attention" bezeichnet; eine Inkonsistenz, die in der Community angemerkt wurde). Der Kern: Statt für jede Query alle anderen Token gegenüberzustellen, wählt SSA pro Query nur die relevanten Positionen aus und berechnet darauf exakte Attention.

Beanspruchte Eigenschaften:

  1. Lineare Skalierung in Compute und Speicher.
  2. Content-Dependent Routing — Auswahl basiert auf semantischer Relevanz, nicht auf Position.
  3. Sparse Retrieval — auch weit entfernte Token werden gefunden.

Andere Architektur-Alternativen scheiterten bisher jeweils an einem dieser Punkte:

  • Mamba, RWKV, KV-cache-free Ansätze: linear, aber Kompression auf einen fixen State führt zu Tiefenverlust.
  • Linformer, Performer: kein sauberes Content-Dependent-Routing, dadurch Approximations-Fehler.
  • Sliding Window Attention (Mistral): begrenzt sich auf ein Zeitfenster, früherer Kontext geht verloren.
  • DeepSeek V3.2: eigene Sparse Attention, deren Indexer nach SubQs eigener Analyse jedoch selbst quadratisch sei — die Komplexität sei verschoben, nicht eliminiert.

Eine gleichzeitige Lösung aller drei Probleme wäre der größte Architektursprung seit dem Original-Transformer-Paper von 2017. Diese Aussage steht unter Vorbehalt.

Die Benchmark-Ergebnisse

Bisher liegen drei Benchmarks vor.

Ruler 128K (NVIDIA-Standard für Long Context, 13 Tests):

  • SubQ 1M Preview: 95 %
  • Claude Opus 4.6: 94,8 %

SWE-Bench Verified (realweltige GitHub-Issues mit Tests, Coding-Standard):

  • Claude Opus 4.7: 87,6 %
  • SubQ: 81,8 %

SubQ schlägt hier Opus 4.6, Gemini 3.1 Pro und DeepSeek V4 Pro, bleibt aber hinter Opus 4.7 zurück.

MRCR V2 (Multi-Round Coreference Resolution, härtester Long-Context-Test):

  • Claude Opus 4.6: 78,3 %
  • GPT-5.5: 74 %
  • SubQ: 65,9 %

Bemerkenswert: SubQ behauptet, das 12-Millionen-Forschungsmodell erreiche auf MRCR V2 einen Wert von 83 %. Trifft dieser Wert zu, läge SubQ vor allen aktuellen Top-Modellen. Das Forschungsmodell ist allerdings nicht das Production-Modell, das per API verfügbar ist; in der API-Variante bleibt der Wert bei 65,9 %.

Effizienz: der eigentliche Differenzierer

Während SubQ in der Qualität die Frontier-Modelle bislang nicht durchgängig schlägt, ist der Effizienzabstand erheblich. Auf einer NVIDIA B200 misst SubQ gegenüber Flash Attention 2:

  • 1 Mio. Token: 52,2× schneller
  • 512K Token: 23× schneller
  • 256K Token: 13× schneller

Die FLOP-Reduktion bei 1 Mio. Token: 62,5×. In Dollar ausgedrückt: Ein Ruler-128K-Lauf kostet bei SubQ rund 8 $, bei Claude Opus rund 2.600 $ — eine 300-fache Kostendifferenz bei vergleichbarer Qualität.

Sollte sich diese Wirtschaftlichkeit unter unabhängigen Tests bestätigen, betrifft das primär die Marge der etablierten Anbieter, nicht ihre Modellqualität: Inference-Cost ist heute der zentrale wirtschaftliche Burggraben von Anthropic, OpenAI, Google und den chinesischen Frontier-Laboren.

Kritische Befunde

Mehrere Signale relativieren das Versprechen.

1. Basis-Modell ist Open-Source-Fine-Tune. Will Depue (AI Engineer) vermutete auf X einen „sparse-attention fine-tune of Kimi or DeepSeek". CTO Alex Wedden bestätigte dies öffentlich:

„Using weights from open source models as a starting point, as a function of our funding and maturity as a company."

Die behauptete Eigenleistung beschränkt sich damit auf die neue Attention-Architektur, nicht auf das zugrundeliegende Sprachmodell — auch wenn das Marketing den Eindruck eines „from the ground up"-Modells erweckt.

2. Fehlende Verifizierbarkeit. Es gibt bislang kein Paper, keine Model Card, keine veröffentlichten Weights, keine offen zugängliche Demo, keine peer-reviewte Methodik. Bei einem behaupteten Architektursprung dieser Größenordnung ist das Fehlen dieser Belege ein wesentlicher Vorbehalt.

3. Verdachtsmomente in Social Media. - Manipulierte Y-Achse in einem inzwischen entferntem Diagramm, die die Lücke zu Opus 4.7 visuell verkleinerte. - Identische Kommentare zeitgleich auf X, Reddit und Hacker News — häufig von neu erstellten oder karma-armen Accounts. - Ein Reddit-Thread mit 217 Upvotes wurde von Moderatoren entfernt.

4. Schweigen anerkannter Stimmen. Andrej Karpathy, Yann LeCun, Sam Altman und Dario Amodei haben sich bisher nicht geäußert. Zum Vergleich: Bei DeepSeek V3 war der Researcher-Diskurs binnen Stunden im Gang. Bei SubQ dominieren bislang Marketing-orientierte Influencer-Accounts.

Dan Mac fasste die Lage prägnant zusammen:

„SubQ is either the biggest breakthrough since the Transformer or it's AI Theranos."

Einordnung

Aus den verfügbaren Daten zeichnet sich Folgendes ab:

  • Mit 29 Mio. USD Seed-Funding verdrängt SubQ weder Anthropic noch OpenAI oder Google. Diese Erzählung steht im Marketing, trägt sachlich jedoch nicht.
  • Bemerkenswert bleibt, dass mit SubQ erstmals ein subquadratisches Modell auf Frontier-Niveau den Produktmarkt erreicht. Mamba, Hyena, RWKV und KV-cache-free Ansätze sind bisher nicht über Forschungsstadien hinausgekommen.
  • Bestätigen sich die Effizienzwerte und der MRCR-V2-Wert des 12-Millionen-Forschungsmodells unter unabhängigen Tests, müssten die Frontier-Labore ihre Inference-Stacks in den kommenden 12-18 Monaten architektonisch umbauen. Quadratische Attention wäre dann teurer Legacy-Stack.

Bis Paper, Model Card und offener API-Zugang vorliegen, bleibt SubQ vor allem ein Marketing-Auftritt mit offenen Belegen — kein bewiesener Architektursprung. Das Unternehmen hat angekündigt, alle drei Belegstücke in den nächsten 30 Tagen vorzulegen. Vor diesem Zeitpunkt ist eine belastbare Bewertung nicht möglich.

Stichworte

Aufmerksamkeit Large Language Models (LLMs) Architektur Benchmarks & Evals Anthropic

Kommentare

Noch keine Kommentare. Schreib den ersten.

Melde dich an, um zu kommentieren.