KI-Glossar ·LLM

RLHF

Auch: Reinforcement Learning from Human Feedback, Preference Tuning, Präferenz-Tuning

RLHF (Reinforcement Learning from Human Feedback) richtet ein Sprachmodell an menschlichen Präferenzen aus: Menschen bewerten Antworten, das Modell lernt, die bevorzugten zu erzeugen.

Ablauf

Menschen vergleichen Antwortpaare des Modells: Welche ist hilfreicher, ehrlicher, angenehmer? Aus vielen solcher Urteile lernt ein Reward-Modell die menschlichen Präferenzen. Dann wird das Sprachmodell per bestärkendem Lernen darauf trainiert, Antworten zu erzeugen, die dieses Reward-Modell hoch bewertet.

Wirkung

RLHF formt den Charakter: weniger Ausflüchte, weniger Schädliches, mehr brauchbare, höfliche Antworten. Es gilt als der Schritt, der aus GPT-3 das alltagstaugliche ChatGPT machte.

Varianten

Neuere Verfahren wie DPO (Direct Preference Optimization) lernen direkt aus den Vergleichsurteilen, ohne eigenes Reward-Modell — einfacher und stabiler, gleiche Grundidee.

Einordnung

RLHF ist die dritte Trainingsstufe (Pretraining → Instruction Tuning → RLHF) und das wichtigste Werkzeug des Alignment. Schwäche: Das Modell lernt, was Menschen gefällt — das ist nicht immer, was stimmt.

Im Netz verbunden

setzt voraus

Instruction Tuning

nutzt

Belohnung Bestärkendes Lernen

wird genutzt von

Alignment

Im Wissensnetz ansehen