KI-Glossar ·Llm

Benchmark

Auch: Benchmarks, Vergleichstest

Ein Benchmark ist ein standardisierter Test, mit dem die Fähigkeiten von Modellen vergleichbar gemessen werden — etwa für Mathematik, Code oder Wissen.

Wozu sie dienen

Benchmarks geben eine gemeinsame Messlatte: Alle Modelle lösen dieselben Aufgaben, die Ergebnisse werden zu Punktzahlen und Ranglisten. So lässt sich grob vergleichen, wer wo stark ist.

Die Grenzen

Eine hohe Punktzahl heißt nicht automatisch 'im Alltag nützlich'. Benchmarks können veralten, einseitig sein oder versehentlich ins Training geraten ('Kontamination'), was die Werte aufbläht. Sie sind ein Anhaltspunkt, nicht das ganze Bild — der eigene Anwendungsfall zählt mehr als die Rangliste.

Im Wissensnetz ansehen