Alignment ist das Ausrichten von Modellverhalten auf menschliche Absichten und Werte: Das Modell soll hilfreich, ehrlich und harmlos handeln — auch dort, wo keine explizite Regel steht.
Ein Modell optimiert, worauf es trainiert wurde — nicht, was die Erbauer gemeint haben. Zwischen 'erzeuge Text, der gut bewertet wird' und 'sei wirklich hilfreich und ehrlich' klafft eine Lücke; Alignment versucht, sie zu schließen.
Vor allem RLHF und Präferenz-Tuning, dazu Verhaltensregeln im Training (etwa eine 'Verfassung' von Prinzipien, gegen die das Modell seine eigenen Antworten prüft) und Sicherheits-Evaluationen. Von außen ergänzen Guardrails das Ganze — Filter um das Modell herum statt Erziehung des Modells selbst.
Menschliche Werte sind vage, situationsabhängig und widersprüchlich. Übersteuert man, wird das Modell nutzlos vorsichtig und verweigert Harmloses; untersteuert man, hilft es bei Schädlichem. Diese Balance ist eine zentrale Designentscheidung jedes Anbieters.
Alignment ist das Sachgebiet hinter Begriffen wie 'hilfreich, ehrlich, harmlos' — und eines der aktivsten Forschungsfelder der KI-Sicherheit.