KI-Glossar ·Llm

Speculative Decoding

Auch: Spekulatives Dekodieren

Speculative Decoding beschleunigt die Generierung: Ein kleines, schnelles Modell rät mehrere Tokens voraus, das große Modell prüft sie in einem Rutsch.

Das Problem

Große Modelle erzeugen Text Token für Token — jedes einzelne kostet einen vollen, teuren Durchlauf. Das macht die Inferenz langsam.

Der Trick

Ein kleines 'Entwurfsmodell' schlägt schnell mehrere nächste Tokens vor. Das große Modell prüft diesen Entwurf in einem einzigen Durchlauf und übernimmt alle Tokens, die es selbst auch gewählt hätte; beim ersten Abweichen korrigiert es. Im Schnitt werden so mehrere Tokens pro teurem Schritt fertig.

Der Clou

Das Ergebnis ist identisch zu dem, was das große Modell allein erzeugt hätte — es wird nur schneller. Qualität bleibt, Tempo steigt.

Im Netz verbunden

setzt voraus
Im Wissensnetz ansehen