Claude Fable 5 dominiert Mathematik-Benchmark FrontierMath mit Rekordwert · KI-News

Anthropic hat mit Claude Fable 5 einen neuen Benchmark-Rekord gesetzt: Das Modell erreicht 88 % Genauigkeit auf der höchsten Schwierigkeitsstufe des FrontierMath-Tests, während der Vorgänger Opus 4.5 hier noch unter 10 % lag. Damit outperformt es OpenAIs GPT-5.5, die nur rund 75 % erreicht. Die Entwicklung zeigt das rasante Tempo, in dem sich die mathematischen Fähigkeiten von Large Language Models verbessern – ein Bereich, in dem komplexe Reasoning-Fähigkeiten entscheidend sind.

Zum Originalartikel