RLHF (Reinforcement Learning from Human Feedback) richtet ein Sprachmodell an menschlichen Präferenzen aus: Menschen bewerten Antworten, das Modell lernt, die bevorzugten zu erzeugen.
Menschen vergleichen Antwortpaare des Modells: Welche ist hilfreicher, ehrlicher, angenehmer? Aus vielen solcher Urteile lernt ein Reward-Modell die menschlichen Präferenzen. Dann wird das Sprachmodell per bestärkendem Lernen darauf trainiert, Antworten zu erzeugen, die dieses Reward-Modell hoch bewertet.
RLHF formt den Charakter: weniger Ausflüchte, weniger Schädliches, mehr brauchbare, höfliche Antworten. Es gilt als der Schritt, der aus GPT-3 das alltagstaugliche ChatGPT machte.
Neuere Verfahren wie DPO (Direct Preference Optimization) lernen direkt aus den Vergleichsurteilen, ohne eigenes Reward-Modell — einfacher und stabiler, gleiche Grundidee.
RLHF ist die dritte Trainingsstufe (Pretraining → Instruction Tuning → RLHF) und das wichtigste Werkzeug des Alignment. Schwäche: Das Modell lernt, was Menschen gefällt — das ist nicht immer, was stimmt.