KI-Glossar ·LLM

Guardrails

Auch: Safety Classifier, Schutzmechanismen, Leitplanken

Guardrails sind Schutzmechanismen rund um ein KI-Modell, die unerwünschte Ein- oder Ausgaben verhindern sollen — zum Beispiel vorgeschaltete Safety Classifier, die jede Anfrage prüfen, bevor das Modell sie sieht.

Das Prinzip

Ein Sprachmodell selbst kennt kein „verboten“. Guardrails legen Regeln von außen darum: Systemanweisungen, Filter auf den Antworten — oder eigene kleine Prüfmodelle (Safety Classifier), die jede Anfrage vorab bewerten. Schlägt ein Classifier an, wird die Anfrage abgelehnt, entschärft oder an ein anderes Modell weitergereicht.

Beispiel Fable 5

Anthropic veröffentlichte 2026 sein Spitzenmodell Fable 5 nur mit vorgeschalteten Classifiern für drei Bereiche: Cyberangriffe, Bio-/Chemiewaffen und Distillation. Greift ein Filter, beantwortet das ältere Modell Opus 4.8 die Frage — für die Nutzer sichtbar. Eine zunächst geplante unsichtbare Verschlechterung der Antworten nahm Anthropic nach öffentlicher Kritik zurück.

Der Preis

Guardrails produzieren Fehlalarme. Im c't-Test blockierten die Fable-Classifier eine harmlose Frage zu einem Arbeitsunfall aus dem Jahr 1848. Je strenger die Leitplanken, desto mehr legitime Anfragen bleiben hängen — die Balance zwischen Sicherheit und Brauchbarkeit ist eine der zentralen Designentscheidungen heutiger KI-Anbieter.

Im Netz verbunden

nutzt

LLM

wird genutzt von

Agentic Engineering

abzugrenzen von

Alignment

Im Wissensnetz ansehen