Cross-Entropy ist die übliche Verlustfunktion beim Training von Sprachmodellen: Sie misst, wie weit die vorhergesagte Wahrscheinlichkeit vom tatsächlich nächsten Token entfernt liegt.
Wozu eine Verlustfunktion?
Training heißt: einen Fehler messen und verkleinern. Die Verlustfunktion liefert diese eine Fehlerzahl. Cross-Entropy ist dafür bei Klassifikations- und Sprachaufgaben der Standard.
Was sie misst
Das Modell sagt eine Wahrscheinlichkeitsverteilung übers nächste Token voraus. Cross-Entropy bestraft, wie wenig Wahrscheinlichkeit es dem tatsächlich richtigen Token gegeben hat: War es sicher und richtig, ist der Verlust klein; war es sicher und falsch, ist er groß.
Im Training
Über Backpropagation werden die Gewichte so verschoben, dass dieser Verlust sinkt — das Modell gibt dem jeweils richtigen nächsten Token mit der Zeit höhere Wahrscheinlichkeit.