Ein internationales Forschungsteam hat mit SWE-Explore einen neuen Benchmark entwickelt, der erstmals gezielt prüft, wie gut KI-Coding-Agenten relevanten Code lokalisieren – getrennt von der eigentlichen Reparatur. Die Ergebnisse sind aufschlussreich: Agenten wie Claude Code oder Codex finden zwar häufig die richtige Datei, scheitern aber auf Zeilenebene bei den entscheidenden Stellen. Das Problem ist strukturell: Ohne ausreichenden Kontext ist selbst die beste Reparatur-KI zum Scheitern verurteilt. Diese Erkenntnisse zeigen, wo Coding-Agenten noch wesentliche Verbesserungen brauchen.