Interpretierbarkeit und Transformer-Architektur

30.04.2026 07:44

Überblick

Interpretierbarkeit von Transformer-Modellen beschreibt die Fähigkeit, Entscheidungen und interne Repräsentationen nachvollziehbar zu machen. Dies umfasst die Analyse von Aktivierungsmustern, die Verfolgung von Fehlerquellen und das Verständnis, wie Architektur-Entscheidungen die Lesbarkeit von Modell-Behavior beeinflussen.

Observierbarkeit in Transformer-Architekturen

Die Observierbarkeit eines Transformers – die Fähigkeit, Fehler und Entscheidungsqualität aus mid-layer Aktivierungen zu erkennen – ist nicht architektur-agnostisch. Neue Forschung zeigt:

  • Observierbarkeit wird durch konkrete Architektur-Parameter (Layer-Zahl, Head-Anzahl) und Training bestimmt, nicht durch Transformer-Design an sich
  • Confidence-Signale im Modell können bis zu 57,7% des diagnostischen Signals maskieren
  • Bestimmte Konfigurationen (z.B. 24-layer, 16-head in Pythia) zeigen systematische Observierbarkeits-Kollaps
  • Aktivierungsmonitoring wird durch diese Architektur-Effekte erheblich erschwert

Dies bedeutet: Modelle müssen einzeln auf ihre Observierbarkeit geprüft werden; es gibt keine universellen Garantien.

Grounding und kompositionelle Generalisierung

Ein klassisches Annahme der Neuro-Symbolischen KI war, dass Symbol-Grounding automatisch zu kompositionaler Generalisierung führt. Aktuelle Forschung widerlegt dies:

  • Grounding und kompositionelles Reasoning sind unabhängige Probleme, nicht komplementär
  • Systematische empirische Analysen mit formalen Taxonomien (neue Entitäten, ungesehene Relationen, Multi-Hop-Relationen) zeigen diese Orthogonalität
  • Das Modell Iterative Logic Tensor Network (iLTN) – eine vollständig differenzierbare Architektur für Multi-Step-Deduktion – adressiert beide Probleme getrennt
  • Robustes Reasoning erfordert separate Optimierung beider Fähigkeiten

Dies ist relevant für die Entwicklung von Systemen, die symbolisches Wissen mit neuronalen Repräsentationen verbinden sollen.

Evaluations-Bias in LLM-Judging

LLM-basierte Evaluatoren für Modell-Outputs zeigen systematische Verzerrungen. Eine systematische Analyse über 9 Debiasing-Strategien hinweg ergab:

  • Style Bias dominiert (0,76–0,92 über alle untersuchten Judge-Modelle von Google, Anthropic, OpenAI, Meta)
  • Position Bias ist minimal – keine starke Abhängigkeit von Reihenfolge
  • Alle Modelle bevorzugen kürzere Texte bei Expansion-Pairs
  • Qualitäts-Längen-Unterscheidung funktioniert zuverlässig (92–100% Accuracy)
  • Debiasing-Strategien haben begrenzte Wirksamkeit gegen Style Bias

Implikation: LLM-evaluierte Benchmarks sollten auf Style-Homogenität zwischen Kandidaten geprüft werden; reine Längen-Normalisierung reicht nicht aus.

Verwandte Themen

Einzelnachweise

Stichworte

Research