Das Kontextfenster ist die maximale Menge an Tokens, die ein Modell gleichzeitig im Blick hat (Eingabe plus Ausgabe) — der Arbeitsspeicher des Sprachmodells.
Was es bedeutet
Alles, was ein Modell für eine Antwort berücksichtigen kann, muss ins Kontextfenster passen: die Frage, vorherige Gesprächsschritte, beigefügte Dokumente und die entstehende Antwort. Was nicht hineinpasst, existiert für das Modell schlicht nicht.
Warum es eine Grenze gibt
Der Rechenaufwand der Attention wächst stark mit der Länge, und der KV-Cache belegt Speicher. Daher hat jedes Modell ein festes Maximum — von einigen tausend bis zu mehreren Millionen Tokens bei neueren Modellen.
Praktische Folge
Bei langen Gesprächen oder großen Dokumenten 'vergisst' ein Modell den Anfang, sobald das Fenster überläuft. Techniken wie RAG oder Zusammenfassungen helfen, mit begrenztem Kontext umzugehen.