Kaum eine Woche vergeht ohne ein neues Flaggschiff-Modell — und auffällig oft kommen sie inzwischen aus China und sind frei herunterladbar. Der YouTuber „The Morpheus Tutorials" hat sich Mitte Juni 2026 gleich drei davon vorgenommen und durch denselben Praxistest geschickt: GLM 5.2, Kimi K2.7 Code und Minimax M3. Der Anspruch dieser Modelle ist neu — und genau das ist die eigentliche Nachricht.
Vorab eine Begriffsklärung, weil sie hier zentral ist: Diese Modelle sind Open-Weights, nicht nur „Open Source" im Sinne von einsehbarem Quellcode. Veröffentlicht werden die fertig trainierten Gewichte — die Milliarden Zahlen, die das Modell ausmachen. Man kann sie von der Plattform Hugging Face laden, selbst betreiben, anpassen, weitergeben. Bei den Trainingsdaten bleiben auch diese Anbieter verschlossen. „Frei" meint also: das fertige Modell gehört dir, nicht das Rezept dahinter.
Der Paukenschlag steht in der Vergleichstabelle
Das Verräterische sind nicht die Balken in den Benchmark-Diagrammen, sondern gegen wen verglichen wird. Noch vor einem Jahr maßen sich die chinesischen Open-Weights-Modelle untereinander — gegen Qwen, gegen Mistral, gegen die jeweils anderen freien Modelle. Damit ist Schluss. GLM 5.2 und Kimi vergleichen sich in ihren eigenen Veröffentlichungen nur noch mit der absoluten Spitze aus den USA: Anthropics Claude Opus 4.8, OpenAIs GPT 5.5, Googles Gemini 3.1 Pro. Die Auswahl der Konkurrenten ist selbst schon eine Ansage.
Ein Benchmark ist dabei nur ein standardisierter Test, mit dem sich Modelle vergleichbar messen lassen — und die Zahlen sind mit Vorsicht zu genießen, weil ein Teil davon von den Herstellern selbst stammt. Sie zeigen aber zuverlässig die Richtung. Und die Richtung ist deutlich.
Die drei Herausforderer
GLM 5.2 ist der Star des Tests. Es stammt von der Firma ZAI (früher Zhipu AI), gegründet von Professoren der Tsinghua-Universität, einer der führenden Technik-Hochschulen Chinas. Mit rund 750 Milliarden Parametern ist es ein Brocken, technisch eine Mixture of Experts — pro Anfrage wird nur ein Teil des Netzes aktiv, das spart Rechenzeit. Es hat ein Kontextfenster von einer Million Token (so viel Text kann es gleichzeitig im Blick behalten) und steht unter der sehr freizügigen MIT-Lizenz. In unabhängigen Tests liegt es im Coding bemerkenswert weit vorn: Auf dem Benchmark SWE-bench Pro erreicht es 62,1 Punkte und schlägt damit GPT 5.5 (58,6); auf FrontierSWE liegt es mit 74,4 % nur rund einen Prozentpunkt hinter Opus 4.8. Im „Artificial Analysis Intelligence Index" ist es mit 51 Punkten das derzeit stärkste offene Modell überhaupt. Und im unabhängigen Vergleichsportal Design Arena schlug GLM 5.2 in der Code-Kategorie sogar Anthropics teuerstes Modell, Claude Fable 5.
Kimi K2.7 Code von Moonshot AI ist der Spezialist. Es ist kein neues Grundmodell, sondern eine auf Programmieren getrimmte Variante des Vorgängers K2.6 — vergleichbar mit den „Codex"-Ablegern, die OpenAI aus seinen Allzweckmodellen ableitet. Auch hier die übliche Größenordnung: rund eine Billion Parameter, davon nur 32 Milliarden pro Anfrage aktiv, 256.000 Token Kontext, „Modified MIT"-Lizenz. Im Test funktionabel, aber mit deutlich mehr Handarbeit verbunden.
Minimax M3 ist das Leichtgewicht im Feld — mit rund 428 Milliarden Parametern (23 Milliarden aktiv) das kleinste der drei, ebenfalls mit Millionen-Kontext und multimodal (versteht also auch Bilder). Im Praxistest schnitt es am schwächsten ab: mehr Fehler, blasseres Design.
„Nur sieben Monate hinter den Großen"
Eine Aussage aus dem Umfeld von ZAI hat es in sich: GLM 5.2 liege rund sieben Monate hinter den stärksten verfügbaren Modellen — und so lange werde es eben noch dauern, bis Open Source dort ankommt, wo die geschlossene Spitze heute steht. Unter dieser Prognose entspann sich ein kleiner Schlagabtausch: Elon Musk kommentierte trocken „Q1" (also erstes Quartal), woraufhin der ZAI-Gründer konterte: „won't take that long" — so lange werde es nicht dauern.
„GLM 5.2 würde ich schon sehr, sehr nahe an den US-Flagships dran festlegen.“
— The Morpheus Tutorials · 2026
Man darf solche Ansagen als Marketing lesen. Aber der Abstand, den sie behaupten, ist neu: Es geht nicht mehr um Jahre, sondern um Monate.
Der Haken: zuhause läuft das nicht
„Jeder könnte das installieren" stimmt nur theoretisch. Modelle dieser Größe brauchen Server-Hardware. Selbst eine RTX 5090 — die teuerste Consumer-Grafikkarte — hat dafür viel zu wenig Speicher; bei einem 750-Milliarden-Parameter-Modell reicht der Arbeitsspeicher hinten und vorne nicht. Wer keine eigene Server-Wand hat, mietet sich also Rechenleistung. Plattformen wie OpenRouter funktionieren dabei als Marktplatz: Sie hosten selbst nichts, sondern vermitteln zwischen verschiedenen Anbietern, die um den Preis konkurrieren. (Was man am eigenen Rechner tatsächlich betreiben kann, steht in unserem Beitrag Lokale KI-Modelle einrichten.)
Das hat eine Kehrseite, die im Test angerissen wird: Wo die Rechenleistung physisch steht, entscheidet über den Datenschutz. Bei einem Anbieter in der EU lässt sich die DSGVO erfüllen — bei einem beliebigen Billiganbieter eben nicht. Und unabhängige Beobachter warnen, dass die Nutzung der API der chinesischen Hersteller (also der direkte Zugriff über deren eigene Server, statt der selbst gehosteten Gewichte) ein Datenrisiko birgt. Die Lizenz erlaubt das Selbst-Hosten — die Bequemlichkeit der fertigen Schnittstelle hat einen Preis.
Was es kostet
Hier liegt das stärkste Argument der Herausforderer. Abgerechnet wird pro Million Token, getrennt nach Eingabe und Ausgabe:
| Modell | Eingabe / 1 Mio. Token | Ausgabe / 1 Mio. Token |
|---|---|---|
| GLM 5.2 (günstigster Anbieter) | ~1,20 $ | ~4,10 $ |
| Kimi K2.7 Code (günstigster Anbieter) | ~0,74 $ | ~3,50 $ |
| Claude Fable 5 | 10 $ | 50 $ |
Das ist beim Output mehr als das Zehnfache zugunsten der Open-Weights-Modelle. Konkret im Test: Dieselbe App einmal komplett bauen zu lassen kostete mit GLM 5.2 rund 4,28 $ (plus ein Dollar für einen Nachbesserungs-Durchlauf), mit Kimi nur 2,65 $ — dieselbe Aufgabe über die Fable-5-Schnittstelle hätte grob 10 bis 20 $ verschlungen. (Warum Fable 5 trotzdem seine Berechtigung hat, haben wir separat aufgedröselt: Fable 5 — Flop oder Sprung?)
Der Praxistest: sauberer Code, durchwachsenes Design
Getestet wurde mit einer festen Spezifikation, aus der jedes Modell in einem Durchlauf dieselbe App bauen sollte — eine Flutter-Rezept-App. Das Ergebnis fiel differenziert aus.
GLM 5.2 überzeugte vor allem beim Code: sauber aufgeteilt, jede Datei unter 250 Zeilen, durchdachte Struktur — „wirklich super ordentlicher Code", so das Urteil. Schwächen zeigten sich beim Feinschliff: ein Absturz beim Start (eine Berechnung lieferte „NaN", also keine gültige Zahl), der sich in einem einzigen Nachbesserungs-Durchlauf beheben ließ; danach Layout-Überläufe, halb unübersetzte Oberfläche, ein doppelter Button, eine kaputte Statistik-Seite. Das Fazit war trotzdem bemerkenswert: nahe genug an der US-Spitze, dass der Tester überlegt, GLM 5.2 in seinen eigenen autonomen Entwickler-Workflow aufzunehmen — eine Schwelle, die bislang nur die großen US-Modelle überschritten hatten.
Kimi K2.7 Code lieferte funktionierende Ergebnisse ohne Layout-Überläufe, aber mit aufdringlicherem, weniger elegantem Design — und mehr nötiger Handarbeit. Einordnung des Testers: etwa auf dem Niveau eines GPT 5. Brauchbar für klar umrissene Einzelaufgaben, wenn man selbst prüft. Minimax M3 blieb das Schlusslicht.
Einordnung
Drei Dinge bleiben hängen. Erstens: Im Alltag würde man den Unterschied zur US-Spitze kaum noch bemerken — dort ist die Luft nach oben dünn geworden. Zweitens: Die offenen Modelle holen beim Coding auf, nicht überall; bei Design, Politur und langen, autonom durchgezogenen Aufgaben liegen die geschlossenen Flaggschiffe weiter vorn. Drittens, und das ist der eigentliche Hebel: Der Vorsprung der Großen schmilzt, während der Preis- und Offenheits-Vorteil der Herausforderer bleibt. Wer selbst hosten will — aus Datenschutz-Gründen, gegen Anbieter-Abhängigkeit, oder schlicht des Preises wegen —, hat zum ersten Mal ernstzunehmende Optionen, die nicht aus den USA kommen.
Wer den Stand der Dinge selbst verfolgen mag: Unser LLM-Leaderboard stellt die aktuellen Modelle nach Benchmarks und Preisen nebeneinander.
Quellen
Grundlage dieses Beitrags ist der Praxistest von „The Morpheus Tutorials":
Technische Daten und Benchmark-Einordnung zu GLM 5.2: VentureBeat, The Decoder und DeepLearning.ai – The Batch. Zum Datenrisiko bei API-Nutzung: TechTimes.
Zu Kimi K2.7 Code: Moonshot AI auf GitHub. Zu Minimax M3: MiniMax Research und The Decoder.
Kommentare
Noch keine Kommentare. Schreib den ersten.
Melde dich an, um zu kommentieren.