6 Artikel · 2026-06
Benchmarks & Evals VendingBench: Wie Frontier-Modelle wirklich evaluiert werden

Andon Labs zeigt, wie man robuste Benchmark-Suites für Claude und andere Frontier-Modelle von Grund auf entwickelt.

04.06.2026 · Latent Space
Agenten & Tool-Use EVA-Bench Data 2.0: Benchmark für KI-Agenten mit 121 Tools und 213 Szenarien

Neues Benchmark-Dataset für die Evaluierung von KI-Agenten über drei Domänen mit über 100 Tools und realistischen Szenarien.

04.06.2026 · HuggingFace Blog
Benchmarks & Evals Ideogram 4.0: Neues Open-Weight-Bildmodell mit nativer 2K-Auflösung

Ideogram veröffentlicht sein Text-zu-Bild-Modell 4.0 als Open-Weight-Modell mit 2K-Auflösung und präziser Textdarstellung – führend unter offenen Systemen.

03.06.2026 · The Decoder (DE)
Agenten & Tool-Use MiniMax M3: Chinesisches Coding-Modell schlägt GPT 4.5 – aber lohnt sich wirklich?

Das neue chinesische Modell MiniMax M3 verspricht überlegene Coding-Performance, 1 Million Token Context und sensationelle Preise – ein Hands-on-Test mit ehrlicher Einordnung.

02.06.2026 · IchBinFabian (YT)
Benchmarks & Evals SWEbench ist abgelöst

Ein bekanntes Benchmark-System für Software-Engineering-KI-Modelle wird als obsolet erklärt – möglicherweise weil neue Systeme es übertroffen haben.

01.06.2026 · Matthew Berman (YT)
Benchmarks & Evals Nemotron 3 Ultra: Nvidias neues Open-Source-Modell Top-Performer in den USA

Nvidias Nemotron 3 Ultra ist laut Artificial Analysis das stärkste offene KI-Modell aus den USA und verfügt über 550 Milliarden Parameter.

01.06.2026 · The Decoder (DE)