Ein Hyperparameter ist eine vor dem Training festgelegte Stellschraube eines Modells — etwa die Lernrate oder die Zahl der Schichten. Anders als die Parameter wird er nicht aus den Daten gelernt, sondern von Hand oder per Suche eingestellt.
Bevor das Training beginnt, müssen einige Entscheidungen getroffen werden, die den Lernvorgang selbst steuern. Diese Einstellungen heißen Hyperparameter. Sie legen nicht fest, was das Modell weiß, sondern wie es lernt — und sie ändern sich während des Trainings nicht.
Die Lernrate (wie große Schritte das Modell bei jeder Anpassung macht), die Zahl der Schichten und Neuronen, die Batch-Größe oder die Anzahl der Durchläufe (Epochen). Schon kleine Änderungen können über Erfolg oder Misserfolg des Trainings entscheiden.
Weil sich gute Werte selten vorab berechnen lassen, sucht man sie systematisch — etwa durch Ausprobieren vieler Kombinationen (Grid Search) oder zufälliges Stichprobenziehen (Random Search). Dieses Vorgehen heißt Hyperparameter-Optimierung.
Der Unterschied zu den Parametern ist grundlegend: Parameter (die Gewichte) werden im Training aus den Daten gelernt; Hyperparameter werden vor dem Training von außen gesetzt.