KI-Glossar ·Transformer

Attention

Auch: Self-Attention, Aufmerksamkeit, Attention-Mechanismus

Attention ist der Kernmechanismus des Transformers: Jedes Token darf gewichtet auf alle anderen schauen und entscheiden, welche für seine Bedeutung wichtig sind.

Das Prinzip

Um ein Wort zu verstehen, kommt es auf den Zusammenhang an. In 'die Bank am Fluss' bestimmt 'Fluss', dass 'Bank' das Ufer meint, nicht das Geldinstitut. Attention lässt jedes Token solche Bezüge herstellen: Es bewertet, wie stark jedes andere Token zu seiner Bedeutung beiträgt, und mischt deren Information gewichtet ein.

Warum es so mächtig ist

Attention verbindet beliebig weit entfernte Wörter direkt — anders als ein LSTM, das Information mühsam Schritt für Schritt weiterreicht. Und sie lässt sich parallel über die ganze Sequenz berechnen, was Training auf riesigen Datenmengen erst praktikabel macht.

Einordnung

Mit dem Aufsatz 'Attention is all you need' (2017) wurde dieser Mechanismus zum Herzstück des Transformers — und damit zur Grundlage praktisch aller heutigen Sprachmodelle.

Im Netz verbunden

setzt voraus
Voraussetzung für
Im Wissensnetz ansehen