Ernüchternd: Top-KI-Modelle lösen nur 3 Prozent echter Wissensaufgaben perfekt · KI-News

Eine aktuelle Studie enthüllt eine bedeutende Lücke zwischen den Fähigkeiten moderner KI-Systeme und praktischen Anforderungen: Selbst Top-Modelle schaffen es nur bei 3 Prozent komplexer Wissensaufgaben, vollständig korrekte Lösungen zu liefern. Dies deutet darauf hin, dass die bisherigen Bewertungsmaßstäbe (Benchmarks) zu optimistisch sind und nicht abbilden, wie KI-Modelle in der Realität agieren. Das Ergebnis ist relevant für Unternehmen, die KI für kritische Aufgaben einsetzen wollen, und zeigt: Der Hype um autonome KI-Agenten muss realistischer werden.

Zum Originalartikel