Der KV-Cache ist eine Optimierung bei der Texterzeugung: Bereits berechnete Attention-Zwischenwerte (Keys und Values) werden zwischengespeichert, statt sie für jedes neue Token neu zu berechnen.
Das Problem
Ein Decoder erzeugt Text Token für Token. Naiv müsste er bei jedem neuen Token die Attention über den gesamten bisherigen Text neu berechnen — der Aufwand wächst mit jeder Position.
Die Lösung
Die für die vorhandenen Tokens berechneten Keys und Values ändern sich nicht mehr. Man speichert sie im KV-Cache und nutzt sie wieder; nur das neue Token muss frisch verrechnet werden. Das beschleunigt die Generierung erheblich.
Der Preis
Der Cache braucht Speicher, der mit der Kontextlänge wächst — bei sehr langen Kontexten wird er zum begrenzenden Faktor für Tempo und Hardware-Bedarf.