8 Artikel
Benchmarks & Evals VendingBench: Wie Frontier-Modelle wirklich evaluiert werden

Andon Labs zeigt, wie man robuste Benchmark-Suites für Claude und andere Frontier-Modelle von Grund auf entwickelt.

04.06.2026 · Latent Space
Agenten & Tool-Use EVA-Bench Data 2.0: Benchmark für KI-Agenten mit 121 Tools und 213 Szenarien

Neues Benchmark-Dataset für die Evaluierung von KI-Agenten über drei Domänen mit über 100 Tools und realistischen Szenarien.

04.06.2026 · HuggingFace Blog
Benchmarks & Evals Ideogram 4.0: Neues Open-Weight-Bildmodell mit nativer 2K-Auflösung

Ideogram veröffentlicht sein Text-zu-Bild-Modell 4.0 als Open-Weight-Modell mit 2K-Auflösung und präziser Textdarstellung – führend unter offenen Systemen.

03.06.2026 · The Decoder (DE)
Agenten & Tool-Use MiniMax M3: Chinesisches Coding-Modell schlägt GPT 4.5 – aber lohnt sich wirklich?

Das neue chinesische Modell MiniMax M3 verspricht überlegene Coding-Performance, 1 Million Token Context und sensationelle Preise – ein Hands-on-Test mit ehrlicher Einordnung.

02.06.2026 · IchBinFabian (YT)
Benchmarks & Evals SWEbench ist abgelöst

Ein bekanntes Benchmark-System für Software-Engineering-KI-Modelle wird als obsolet erklärt – möglicherweise weil neue Systeme es übertroffen haben.

01.06.2026 · Matthew Berman (YT)
Benchmarks & Evals Nemotron 3 Ultra: Nvidias neues Open-Source-Modell Top-Performer in den USA

Nvidias Nemotron 3 Ultra ist laut Artificial Analysis das stärkste offene KI-Modell aus den USA und verfügt über 550 Milliarden Parameter.

01.06.2026 · The Decoder (DE)
Benchmarks & Evals KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

Führende KI-Suchagenten recherchieren auf etablierten Benchmarks kaum wirklich – sie bestätigen mit Websuche vor allem ihr bereits vorhandenes Trainings-Wissen.

31.05.2026 · The Decoder (DE)
Agenten & Tool-Use Die alljährliche KI-Stagnations-Panik kehrt zurück

DeepSWE-Benchmark offenbart Leistungslücken bei komplexen Coding-Aufgaben, während Tokenknappheit und Finanzierungsdruck das Marktmodell unter Druck setzen.

29.05.2026 · AI Daily Brief (YT)