Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells — meist ein Wortteil, nicht ein ganzes Wort. Text wird vor der Verarbeitung in Tokens zerlegt.
Warum nicht einfach Wörter?
Ganze Wörter als Einheiten wären unpraktisch: Es gibt zu viele, und seltene oder neue Wörter ('Donaudampfschiff') kämen nie vor. Stattdessen zerlegt man Text in häufige Bausteine — oft Silben oder Wortstücke, aus denen sich auch unbekannte Wörter zusammensetzen lassen.
Warum das wichtig ist
Alles, was ein Sprachmodell tut, zählt in Tokens: Das Kontextfenster ist in Tokens begrenzt, und die Kosten einer Anfrage werden pro Token abgerechnet. Als Faustregel entspricht ein Token im Deutschen grob einem halben bis ganzen kurzen Wort.
Abgrenzung
Ein Token ist nicht dasselbe wie ein Buchstabe oder ein Wort — es liegt dazwischen. Und es ist nicht das Embedding: Das Token ist die Einheit, das Embedding ihre Zahlendarstellung.