Autoregression ist das Grundprinzip der Textgenerierung: Das Modell erzeugt ein Token nach dem anderen, und jedes neue baut auf allen vorherigen auf.
Vorhersagen, anhängen, von vorn: Das Modell schätzt das wahrscheinlichste nächste Token, hängt es an den Text an und nimmt den verlängerten Text als neue Eingabe — bis ein Stopp-Signal kommt. Dieser Kreislauf ist die gesamte Mechanik der Textgenerierung.
Weil jedes Token einen Modell-Durchlauf kostet, hängt das Tempo an der Token-Zahl — Optimierungen wie KV-Cache und Speculative Decoding setzen genau hier an. Das wortweise Erscheinen der Antwort im Chat ist kein Effekt, sondern der Vorgang selbst. Und: Einmal erzeugte Tokens stehen fest — ein früher Fehler kann sich in die Fortsetzung fortpflanzen.
Aus reiner Fortsetzungs-Vorhersage entstehen Antworten, Übersetzungen, Programme. Dass diese eine Aufgabe so weit trägt, ist der zentrale empirische Befund hinter den LLMs.
Autoregression ist das Arbeitsprinzip des Decoders; welche Tokens konkret gewählt werden, bestimmen Sampling, Temperatur und Co.