Positional Encoding gibt dem Transformer die Wortreihenfolge mit: Weil Attention alle Tokens gleichzeitig betrachtet, muss die Position jedes Tokens eigens kodiert werden.
Attention betrachtet alle Tokens auf einmal — sie ist von sich aus reihenfolge-blind. 'Hund beißt Mann' und 'Mann beißt Hund' enthielten ohne Positionsinformation dieselben Bausteine; der Unterschied ginge verloren.
Jedes Token bekommt zusätzlich zu seiner Bedeutung eine Positionsinformation in sein Embedding gemischt. So weiß das Modell nicht nur, was ein Token ist, sondern auch, wo es steht — und kann Reihenfolge in seine Berechnungen einbeziehen.
Die ursprünglichen Transformer nutzten feste Wellenmuster oder gelernte Positions-Embeddings. Moderne Modelle verwenden meist RoPE (Rotary Positional Embeddings): Die Vektoren werden positionsabhängig rotiert, was sich besonders für lange Kontexte bewährt hat.
Positional Encoding ist neben Attention und den Feedforward-Schichten der dritte Kernbaustein des Transformers — unscheinbar, aber ohne ihn kennt das Modell keine Wortreihenfolge.