Ein Benchmark ist ein standardisierter Test, mit dem die Fähigkeiten von Modellen vergleichbar gemessen werden — etwa für Mathematik, Code oder Wissen.
Wozu sie dienen
Benchmarks geben eine gemeinsame Messlatte: Alle Modelle lösen dieselben Aufgaben, die Ergebnisse werden zu Punktzahlen und Ranglisten. So lässt sich grob vergleichen, wer wo stark ist.
Die Grenzen
Eine hohe Punktzahl heißt nicht automatisch 'im Alltag nützlich'. Benchmarks können veralten, einseitig sein oder versehentlich ins Training geraten ('Kontamination'), was die Werte aufbläht. Sie sind ein Anhaltspunkt, nicht das ganze Bild — der eigene Anwendungsfall zählt mehr als die Rangliste.