KI-Glossar ·Transformer

KV-Cache

Auch: Key-Value-Cache

Der KV-Cache ist eine Optimierung bei der Texterzeugung: Bereits berechnete Attention-Zwischenwerte (Keys und Values) werden zwischengespeichert, statt sie für jedes neue Token neu zu berechnen.

Das Problem

Ein Decoder erzeugt Text Token für Token. Naiv müsste er bei jedem neuen Token die Attention über den gesamten bisherigen Text neu berechnen — der Aufwand wächst mit jeder Position.

Die Lösung

Die für die vorhandenen Tokens berechneten Keys und Values ändern sich nicht mehr. Man speichert sie im KV-Cache und nutzt sie wieder; nur das neue Token muss frisch verrechnet werden. Das beschleunigt die Generierung erheblich.

Der Preis

Der Cache braucht Speicher, der mit der Kontextlänge wächst — bei sehr langen Kontexten wird er zum begrenzenden Faktor für Tempo und Hardware-Bedarf.

Im Netz verbunden

setzt voraus

Attention

wird genutzt von

Inferenz

Im Wissensnetz ansehen