KI-Woche: Interaction Models, Colossus 1 als Anthropic-Anbau, Refactoring-Benchmarks

15.05.2026 12:37

Diese Woche sticht eine Veröffentlichung heraus: Mira Muratis Startup Thinking Machines stellt mit „Interaction Models" eine neue Modell-Klasse vor, die mit dem klassischen Turn-basierten Hin-und-Her bricht. Daneben mietet Anthropic kurzerhand das gesamte Colossus-1-Rechenzentrum von Elon Musks xAI, und ein neuer Benchmark misst zum ersten Mal nicht nur, ob KI-generierter Code grün läuft, sondern ob er auch lesbar ist.

Interaction Models: das Ende der Turn-Logik

Wer heute mit ChatGPT, Claude oder GPT Realtime spricht, kennt das holprige Muster: man wartet, bis das Modell ausgeredet hat, fängt selbst an, fällt sich ungewollt ins Wort. Genau diese Steifheit räumen die Interaction Models von Thinking Machines weg.

Der technische Trick: Statt einer Turn-Sequenz verarbeitet das Modell zwei parallele Streams — den eigenen Output und den menschlichen Input — in 200-Millisekunden-Häppchen, die für das Modell als ein verzahnter Stream erscheinen. Dadurch sind erstmals echte Pausen, kontinuierliche Reaktionen und Aufmerksamkeits-Anweisungen wie „Zähl mit, jedes Mal wenn ich die Finger heb" möglich. In Demo-Videos hört man, wie das Modell während der Pause des Sprechers tatsächlich schweigt, statt nach drei Sekunden Stille reflexhaft das Wort zu nehmen.

Steve Haupt vom developers club trifft im Wochenformat das passende Bild: der Unterschied zu bisherigen Modellen sei wie der Unterschied zwischen einem Remote-Meeting und einem Vor-Ort-Treffen. Wer sich schon einmal in einer Videokonferenz die Reden- Reihenfolge mit zwei anderen ausgehandelt hat, weiß, was er meint.

Eine Einordnung lohnt: Das Modell hat rund 300 Milliarden Parameter, ist also kleiner als die aktuellen Spitzenmodelle wie GPT-5.5 oder Claude Opus 4.7. In Standard-Benchmarks landet es deshalb im Mittelfeld. Die Pointe ist eine andere — Thinking Machines musste für die Bewertung der Interaktivität eigene Benchmarks entwickeln, weil bestehende Suiten „Time Awareness" oder „Verbal Cues" schlicht nicht messen. Für klassisches Coding ist das Modell nicht die erste Wahl; für Brainstorming, fluide Plan-Erstellung oder den Einsatz im Team-Setting könnte es das fehlende Bindeglied sein, das KI-Agenten bisher außerhalb solcher Räume gehalten hat.

Anthropic mietet Colossus 1

In einer überraschenden Kooperation hat Anthropic die gesamte Rechenkapazität von Elon Musks Colossus-1-Rechenzentrum angemietet — 0,3 Gigawatt für geschätzt 400 bis 700 Millionen Dollar pro Monat. Die unmittelbare Folge für Claude-Nutzer: die Fünf-Stunden- Rate-Limits wurden verdoppelt (das Weekly Limit bleibt unverändert).

Spannender als die Zahl ist die Frage, warum xAI überhaupt Kapazität abgibt. Wer ernsthaft skalieren und das nächste Frontier-Modell trainieren will, brauchte gerade mehr Compute, nicht weniger. xAI hat zwar Colossus 2 im Bau, der zum Teil schon operational ist — aber zwei Rechenzentren sind besser als eins. Ein Signal, dass es bei Musks KI-Sparte gerade nicht so rund läuft? Oder schlicht das Geschäftsmodell, das Musk gerade entdeckt: in Rekordzeit Rechenzentren bauen und untervermieten? Beides ist denkbar.

Kurz aus der KI-Woche

  • METR-Benchmark aktualisiert. Mit dem (noch nicht öffentlichen) Modell Mythos in der Auswertung. Die Verdopplungs-Zeit für die Aufgaben-Länge, die KI unbeaufsichtigt durchziehen kann, bleibt konstant bei rund 100 Tagen — der Benchmark stößt aber jetzt bei 16 Stunden an seine Aussage-Grenze. Sehenswert ist die neue Pro-Task-Visualisierung, die jeden einzelnen Auftrag mit Lösungs-Rate zeigt.
  • Scale SWE Atlas. Neuer Benchmark zu Refactoring, Test-Writing und Codebase-QA. Der Clou: ein LLM-als-Richter bewertet nicht nur die Test-Pass-Rate (die liegt für Spitzenmodelle bei über 75 Prozent), sondern auch die innere Code-Qualität. Beim Rubric-Pass fallen die Modelle deutlich ab — was die seit Jahren bekannte Wahrheit bestätigt: was uns Menschen beim Lesen hilft, hilft auch dem Agenten.
  • OpenAI im Wochentakt zur Sicherheit. Codex Security ist eine spezialisierte Variante des Codex-Agenten, die Threat-Models erstellt, priorisiert und Lücken patcht. Dazu GPT-5.5 Cyber mit weniger restriktiven Guardrails und Daybreak als Sammel-Begriff für OpenAIs Cyber-Initiativen. Die Salami-Veröffentlichung wirkt chaotisch, hat aber eine klare Stoßrichtung: das Finden und Schließen von Sicherheits-Lücken wird massiv beschleunigt — mit allen Folgen für Angreifer wie Verteidiger.

Fazit

Wenn die Interaction Models halten, was die Demos versprechen, dann verschiebt sich nicht nur, was KI kann, sondern wie sie sich in Arbeitsabläufe einfügt. Ein Agent, der weiß, wann er schweigen soll, ist im Team-Setting plötzlich denkbar. Dass diese Innovation nicht von einem der ganz Großen kommt, sondern von einem Mira-Murati-Spinoff nach gerade einmal einem Jahr Firmen-Geschichte, ist die zweite Nachricht der Woche.


Quelle: „Interaction Models" — KI News des developers club (Steve Haupt).

Weiterführend: - Thinking Machines: Interaction Models - Anthropic: Höhere Rate Limits + Colossus-1-Anmietung - METR Time Horizons - Scale SWE Atlas - OpenAI Daybreak

Stichworte

KI Benchmarks & Evals Coding-Modelle Frontier-Modelle Anthropic OpenAI