Das hilfreiche KI-Dilemma: Nützlicher Training macht Chatbots weniger menschlich · KI-News

Forscher haben in einer aufwändigen Studie mit rund 208.000 Versuchspersonen untersucht, wie Sprachmodelle menschliches Verhalten nachbilden. Das überraschende Ergebnis: Das sogenannte Alignment-Training, das Modelle hilfreicher und nützlicher macht, führt paradoxerweise dazu, dass sie schlechter menschliches Verhalten vorhersagen können. Dieser Effekt verschärft sich mit jeder neuen Modellgeneration. Auch beliebte Tricks wie die Vorgabe von demografischen Profilen (Personas) helfen dabei praktisch nicht weiter. Das deutet auf einen grundsätzlichen Trade-off beim KI-Training hin: Mehr Nützlichkeit bedeutet weniger Menschlichkeit in der Verhaltensvorhersage.

Zum Originalartikel