KI-Glossar ·Transformer

Token

Auch: Tokens

Ein Token ist die kleinste Verarbeitungseinheit eines Sprachmodells — meist ein Wortteil, nicht ein ganzes Wort. Text wird vor der Verarbeitung in Tokens zerlegt.

Warum nicht einfach Wörter?

Ganze Wörter als Einheiten wären unpraktisch: Es gibt zu viele, und seltene oder neue Wörter ('Donaudampfschiff') kämen nie vor. Stattdessen zerlegt man Text in häufige Bausteine — oft Silben oder Wortstücke, aus denen sich auch unbekannte Wörter zusammensetzen lassen.

Warum das wichtig ist

Alles, was ein Sprachmodell tut, zählt in Tokens: Das Kontextfenster ist in Tokens begrenzt, und die Kosten einer Anfrage werden pro Token abgerechnet. Als Faustregel entspricht ein Token im Deutschen grob einem halben bis ganzen kurzen Wort.

Abgrenzung

Ein Token ist nicht dasselbe wie ein Buchstabe oder ein Wort — es liegt dazwischen. Und es ist nicht das Embedding: Das Token ist die Einheit, das Embedding ihre Zahlendarstellung.

Im Netz verbunden

Voraussetzung für
abzugrenzen von
Im Wissensnetz ansehen