KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

7/10 The Decoder (DE) 31.05.2026 Benchmarks & Evals Frontier-Modelle Research

Ein neuer Benchmark des Harbin Institute of Technology namens LiveBrowseComp offenbart eine überraschende Schwachstelle moderner KI-Suchagenten: Modelle wie GPT-5.4 oder Kimi K2.6 nutzen das Web offenbar nicht zur echten Recherche, sondern vor allem, um bereits im Training gelernte Informationen zu validieren. Der Benchmark stellt bewusst nur Fragen zu Ereignissen der letzten 90 Tage – dadurch können sich die Modelle nicht auf ihr statisches Wissen stützen. Das Ergebnis ist deutlich: Die Leistung bricht massiv ein, und die bisherigen Ranglisten verschieben sich erheblich. Das zeigt einen blinden Fleck bei der Bewertung von KI-Suchfähigkeiten und wirft Fragen zur realen Leistung dieser Systeme auf.

Zum Originalartikel