Sampling bezeichnet das zufällige Ziehen des nächsten Tokens gemäß den Wahrscheinlichkeiten des Modells, statt stets das wahrscheinlichste zu nehmen — das macht Antworten vielfältiger.
Wie es funktioniert
Das Modell liefert für jedes mögliche nächste Token eine Wahrscheinlichkeit. Beim Sampling wird gewürfelt: Wahrscheinlichere Tokens werden öfter gezogen, aber auch seltenere kommen vor. So entstehen bei gleicher Eingabe unterschiedliche Ausgaben.
Steuerung
Wie 'wild' gewürfelt wird, regeln die Temperatur sowie Verfahren wie Top-k (nur die k wahrscheinlichsten zulassen) oder Top-p (die wahrscheinlichsten, bis ein Anteil p erreicht ist). So balanciert man Vielfalt gegen Verlässlichkeit.
Abgrenzung
Gegenstück ist das Greedy Decoding, das immer das wahrscheinlichste Token nimmt und daher vorhersehbar, aber oft eintönig ist.