OpenAI-Forscher präsentieren einen neuen Ansatz namens "Beneficial RL", um KI-Modelle auf wünschenswerte Verhaltensweisen wie Wahrhaftigkeit und Kooperativität zu trainieren. Das Besondere: Diese Eigenschaften sollen nicht nur in einem Bereich wirken, sondern domänenübergreifend erhalten bleiben. Ein Test mit Gesundheitsdaten zeigt vielversprechende Resultate – das Modell verbesserte sich auf 44 von 53 Benchmarks und konnte sogar besser täuschende Ausgaben erkennen. Der Ansatz unterscheidet sich grundlegend von Anthropics verfassungsbasierter Methode und könnte ein neuer Standard für das sichere Trainieren von Frontier-Modellen werden.