KI-Glossar ·LLM

Alignment

Auch: Ausrichtung, AI Alignment

Alignment ist das Ausrichten von Modellverhalten auf menschliche Absichten und Werte: Das Modell soll hilfreich, ehrlich und harmlos handeln — auch dort, wo keine explizite Regel steht.

Das Problem

Ein Modell optimiert, worauf es trainiert wurde — nicht, was die Erbauer gemeint haben. Zwischen 'erzeuge Text, der gut bewertet wird' und 'sei wirklich hilfreich und ehrlich' klafft eine Lücke; Alignment versucht, sie zu schließen.

Die Methoden

Vor allem RLHF und Präferenz-Tuning, dazu Verhaltensregeln im Training (etwa eine 'Verfassung' von Prinzipien, gegen die das Modell seine eigenen Antworten prüft) und Sicherheits-Evaluationen. Von außen ergänzen Guardrails das Ganze — Filter um das Modell herum statt Erziehung des Modells selbst.

Herausforderungen

Menschliche Werte sind vage, situationsabhängig und widersprüchlich. Übersteuert man, wird das Modell nutzlos vorsichtig und verweigert Harmloses; untersteuert man, hilft es bei Schädlichem. Diese Balance ist eine zentrale Designentscheidung jedes Anbieters.

Einordnung

Alignment ist das Sachgebiet hinter Begriffen wie 'hilfreich, ehrlich, harmlos' — und eines der aktivsten Forschungsfelder der KI-Sicherheit.

Im Netz verbunden

nutzt

RLHF

wird genutzt von

Technologische Singularität

abzugrenzen von

Guardrails

Im Wissensnetz ansehen