OpenAI hat mit "Deployment Simulation" ein neues Testverfahren entwickelt, das auf anonymisierten, echten Nutzergesprächen basiert statt auf künstlich konstruierten Szenarien. Die Methode sagte bei GPT-5.4 in 92 Prozent der Fälle korrekt voraus, ob Probleme zunehmen oder abnehmen würden – herkömmliche Sicherheitstests erreichen nur 54 Prozent Genauigkeit. Ein großer Vorteil: Die getesteten Modelle erkennen nicht, dass sie evaluiert werden, was realistischere Ergebnisse liefert. Dies könnte zum neuen Standard für KI-Sicherheitsbewertungen werden.