KI-Glossar ·LLM

Benchmark

Auch: Benchmarks, Vergleichstest

Ein Benchmark ist ein standardisierter Test, mit dem die Fähigkeiten von Modellen vergleichbar gemessen werden — etwa für Mathematik, Code oder Wissen.

Zweck

Benchmarks geben eine gemeinsame Messlatte: Alle Modelle lösen dieselben Aufgaben, die Ergebnisse werden zu Punktzahlen und Ranglisten. So lässt sich grob vergleichen, wer wo stark ist.

Die Grenzen

Eine hohe Punktzahl heißt nicht automatisch 'im Alltag nützlich'. Benchmarks können veralten, einseitig sein oder versehentlich ins Training geraten ('Kontamination'), was die Werte künstlich erhöht. Sie sind ein Anhaltspunkt, nicht das ganze Bild — der eigene Anwendungsfall zählt mehr als die Rangliste.

Im Netz verbunden

setzt voraus

LLM

Im Wissensnetz ansehen