Benchmarks & Evals · KI-News

2 Artikel · 2026-05

Alle Monate Jul 2026 Jun 2026 Mai 2026

Benchmarks & Evals KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

Führende KI-Suchagenten recherchieren auf etablierten Benchmarks kaum wirklich – sie bestätigen mit Websuche vor allem ihr bereits vorhandenes Trainings-Wissen.

31.05.2026 · The Decoder (DE)

Agenten & Tool-Use Die alljährliche KI-Stagnations-Panik kehrt zurück

DeepSWE-Benchmark offenbart Leistungslücken bei komplexen Coding-Aufgaben, während Tokenknappheit und Finanzierungsdruck das Marktmodell unter Druck setzen.

29.05.2026 · AI Daily Brief (YT)