KI-Glossar ·LLM

Speculative Decoding

Auch: Spekulatives Dekodieren

Speculative Decoding beschleunigt die Generierung: Ein kleines, schnelles Modell rät mehrere Tokens voraus, das große Modell prüft sie in einem einzigen Durchlauf.

Das Problem

Große Modelle erzeugen Text Token für Token — jedes einzelne kostet einen vollen, teuren Durchlauf. Das macht die Inferenz langsam.

Das Verfahren

Ein kleines 'Entwurfsmodell' schlägt schnell mehrere nächste Tokens vor. Das große Modell prüft diesen Entwurf in einem einzigen Durchlauf und übernimmt alle Tokens, die es selbst auch gewählt hätte; beim ersten Abweichen korrigiert es. Im Schnitt werden so mehrere Tokens pro teurem Schritt fertig.

Die Garantie

Das Ergebnis ist identisch zu dem, was das große Modell allein erzeugt hätte — es wird nur schneller. Qualität bleibt, Tempo steigt.

Im Netz verbunden

setzt voraus

Inferenz

Im Wissensnetz ansehen