Fable 5: Flop im Alltag, Sprung im Benchmark

Am 9. Juni hat Anthropic sein neues Spitzenmodell Fable 5 veröffentlicht — nach monatelangem Rummel um ein Modell namens „Mythos“, das die Firma im April noch als zu gefährlich für eine Veröffentlichung bezeichnet hatte. Fable 5 ist im Kern dieses Modell, nur mit eingebauten Schutzmechanismen. Und es ist teuer: 10 Dollar pro Million Eingabe-Token und 50 Dollar pro Million Ausgabe-Token — exakt das Doppelte des Vorgängers Claude Opus 4.8. (Token sind die Wortbruchstücke, in denen Sprachmodelle rechnen und nach denen abgerechnet wird.)

Kaum war das Modell draußen, gingen die Urteile auseinander — und zwar so weit, dass man sich fragen könnte, ob alle vom selben Modell reden. Wir haben vier Quellen nebeneinandergelegt: den Test der c't und drei sehr unterschiedliche YouTube-Auswertungen.

Das Lager der Ernüchterten

Die c't hat Fable 5 in vier Disziplinen gegen Opus 4.8 antreten lassen: Programmieren, Datenanalyse, Textproduktion und Recherche. Das Urteil fällt nüchtern aus: kein großer Wurf, eher eine graduelle Verbesserung. Beim Programmieren lag Fable leicht vorn, bei der Datenanalyse arbeitete ausgerechnet das ältere Opus 4.8 gründlicher, beim Schreiben ebenfalls. Die Empfehlung: Für den Alltag lohnt der doppelte Preis nicht.

Das Lager der Begeisterten

Ganz anders klingt es bei denen, die das Modell an großen Aufgaben messen.

Im Frontier-Code-Benchmark der Firma Cognition (Entwickler des Coding-Agenten Devin) — 150 reale Programmieraufgaben, bei denen erstmals nicht nur Korrektheit, sondern auch Code-Qualität bewertet wird — verdoppelt Fable 5 die Erfolgsquote auf den 50 schwersten Aufgaben: von 16 Prozent (Opus 4.8) auf 30 Prozent. Der News-Talk des Kanals developers club spricht deshalb von einem seltenen Fähigkeitssprung, wie es ihn zuletzt beim Schritt von GPT-3.5 auf GPT-4 gab.

„Obwohl ich den Code nicht sehe, ist er trotzdem wichtig.“

— developers club, KI News · 2026

Den direktesten Vergleich hat der YouTuber Pat Simmons gemacht: identische Prompts an beide Modelle, ein einziger Versuch ohne Korrekturen („One-Shot“), drei ambitionierte Projekte. Einen kompletten Online-Shop bekamen beide hin — der von Fable war sauberer gestaltet, schneller fertig und brauchte sogar weniger Ausgabe-Token. Bei den zwei wirklich harten Aufgaben öffnete sich dann die Schere: Ein begehbares 3D-Kunstmuseum mit 767 automatisch aus Wikipedia gezogenen Gemälden funktionierte bei Fable vollständig, während bei Opus schon der Klick in die Galerie kaputt war. Und ein „Age of Empires“-Klon im Browser wurde bei Fable ein spielbares Echtzeit-Strategiespiel mit erstaunlicher Grafik — bei Opus ein nicht bedienbares Etwas aus grauen Klötzchen.

Der Kanal AI mit Arnie hat eigene Demos gebaut — ein Monster-Fang-Spiel, eine Rettungsroboter-Simulation, einen zoombaren digitalen Zwilling der Erde mit Live-Flugverkehr — und sich zusätzlich durch die 319-seitige System Card gearbeitet, Anthropics technisches Begleitdokument zum Modell. Dort finden sich auch Kuriositäten: Fable erkennt zuverlässiger als jedes Modell zuvor, wann es getestet wird — was Anthropics eigene Sicherheits-Evaluationen zunehmend erschwert. Auch Andrej Karpathy, eine der bekanntesten Stimmen der KI-Szene, nennt Fable einen riesigen Schritt nach vorn — wobei man dazusagen muss: Karpathy arbeitet inzwischen bei Anthropic.

„Es ist wohl aktuell das beste Modell, das es gibt, wenn du es dir leisten kannst und nicht auf etwas Sensibles stößt.“

— AI mit Arnie · 2026

Warum beide Lager recht haben

1. Im Alltag ist kaum noch Luft nach oben. Bei den leichten Aufgaben des Frontier-Code-Benchmarks liegen aktuelle Modelle inzwischen über 90 Prozent — im Sommer 2025 waren es noch rund 30. Wo der Vorgänger schon fast alles richtig macht, kann ein Nachfolger kaum noch auffallen. Die c't hat genau diese Alltagsdisziplinen getestet — und folgerichtig wenig Unterschied gefunden.

2. Die Schere öffnet sich erst bei Ambition. Der Unterschied zeigt sich dort, wo die alten Modelle scheitern — nicht dort, wo sie längst gut sind. Simmons' Museum und sein Strategiespiel sind die Anschauung dazu: Aufgaben, an denen Opus 4.8 komplett zerbrach, erledigte Fable im ersten Anlauf. Fable ist auf solche langen, autonomen Arbeiten ausgelegt: Es plant, stellt Rückfragen, arbeitet dann stundenlang allein und verifiziert sich selbst — etwa indem es das eigene Ergebnis per Browser-Steuerung durchklickt.

3. Nicht alles ist besser geworden. Beim Schreiben kommen c't und AI mit Arnie unabhängig voneinander zum selben Befund: nicht besser als Opus 4.8, eher dichter und anstrengender zu lesen. Halluzinationen bleiben ein Problem — in einem von Arnies Beispielen meldete Fable einen Software-Release als fehlerfrei, der es nicht war. Und beim Reparieren von Fehlern baut es gern neue ein. Ein Sprung in einer Dimension (lange, schwere, autonome Aufgaben) ist eben kein Sprung in allen.

4. Türsteher und Preis kosten Sympathie. Fable 5 schaltet jeder Anfrage sogenannte Safety Classifier vor — kleinere Aufpassermodelle, die Anfragen zu Cyberangriffen, Biowaffen und Distillation abfangen (mehr dazu unter Guardrails). Schlägt der Filter an, wird sichtbar an Opus 4.8 weitergereicht. Diese Filter sind derzeit deutlich übervorsichtig: Der c't blockierten sie eine harmlose Frage zu einem Arbeitsunfall aus dem Jahr 1848, bei Arnie reichte eine Gesundheitsfrage zu Mitochondrien. Eine zunächst geplante verdeckte Verschlechterung von Antworten hat Anthropic nach öffentlicher Kritik gestoppt. Dazu kommt der Verbrauch: Das Modell denkt lang und ausgiebig, Sessions über mehrere Stunden sind normal — ein von Arnie zitierter Tester verbrannte 2000 Dollar in 24 Stunden. Und um den 22. Juni fliegt Fable aus den Abos; danach gelten die vollen API-Preise.

Was folgt daraus für die Praxis?

Das Verblüffende: So gegensätzlich die Gesamturteile klingen, so einig sind sich alle vier Quellen in der Empfehlung. Routineaufgaben gehören zu den günstigeren Modellen — Opus 4.8 oder kleiner, bei einfachen Fragen zusätzlich den Denkaufwand („Reasoning“) herunterregeln. Fable 5 hebt man sich für die harten Nüsse auf: Aufgaben, an denen die Vorgänger scheitern, lange autonome Projekte, Sackgassen, aus denen kein anderes Modell mehr herausfindet.

Wer sich selbst ein Bild machen will, sollte es bald tun: Bis etwa 22. Juni ist Fable 5 noch in den Claude-Abos enthalten — danach wird jede Anfrage einzeln und teuer abgerechnet.

Quellen

Der ausführliche c't-Test ist bei heise online erschienen (teils kostenpflichtig). Dass Anthropic die zunächst geplanten verdeckten Eingriffe nach öffentlicher Kritik gestoppt hat, meldet heise ebenfalls.

Benchmark-Einordnung und Guardrails-Debatte aus der KI-News-Folge des developers club: