Guardrails sind Schutzmechanismen rund um ein KI-Modell, die unerwünschte Ein- oder Ausgaben verhindern sollen — zum Beispiel vorgeschaltete Safety Classifier, die jede Anfrage prüfen, bevor das Modell sie sieht.
Ein Sprachmodell selbst kennt kein „verboten“. Guardrails legen Regeln von außen darum: Systemanweisungen, Filter auf den Antworten — oder eigene kleine Prüfmodelle (Safety Classifier), die jede Anfrage vorab bewerten. Schlägt ein Classifier an, wird die Anfrage abgelehnt, entschärft oder an ein anderes Modell weitergereicht.
Anthropic veröffentlichte 2026 sein Spitzenmodell Fable 5 nur mit vorgeschalteten Classifiern für drei Bereiche: Cyberangriffe, Bio-/Chemiewaffen und Distillation. Greift ein Filter, beantwortet das ältere Modell Opus 4.8 die Frage — für die Nutzer sichtbar. Eine zunächst geplante unsichtbare Verschlechterung der Antworten nahm Anthropic nach öffentlicher Kritik zurück.
Guardrails produzieren Fehlalarme. Im c't-Test blockierten die Fable-Classifier eine harmlose Frage zu einem Arbeitsunfall aus dem Jahr 1848. Je strenger die Leitplanken, desto mehr legitime Anfragen bleiben hängen — die Balance zwischen Sicherheit und Brauchbarkeit ist eine der zentralen Designentscheidungen heutiger KI-Anbieter.