Ernüchternd: Top-KI-Modelle lösen nur 3 Prozent echter Wissensaufgaben perfekt

Bestes KI-Modell löst nur 3 Prozent realistischer Wissensarbeit vollständig korrekt
7/10 The Decoder (DE) 19.06.2026 Benchmarks & Evals Enterprise Research

Eine aktuelle Studie enthüllt eine bedeutende Lücke zwischen den Fähigkeiten moderner KI-Systeme und praktischen Anforderungen: Selbst Top-Modelle schaffen es nur bei 3 Prozent komplexer Wissensaufgaben, vollständig korrekte Lösungen zu liefern. Dies deutet darauf hin, dass die bisherigen Bewertungsmaßstäbe (Benchmarks) zu optimistisch sind und nicht abbilden, wie KI-Modelle in der Realität agieren. Das Ergebnis ist relevant für Unternehmen, die KI für kritische Aufgaben einsetzen wollen, und zeigt: Der Hype um autonome KI-Agenten muss realistischer werden.

Zum Originalartikel