KI-Glossar ·Transformer

Transformer

Auch: Transformer-Architektur

Der Transformer ist die KI-Architektur (2017), die moderne Sprachmodelle ermöglicht. Er verarbeitet ganze Sequenzen parallel über Attention, statt sie Schritt für Schritt zu lesen.

Der Bruch mit dem Bisherigen

Vor dem Transformer verarbeiteten Modelle Text sequenziell (LSTMs) — langsam und vergesslich bei langen Texten. Der Transformer wirft das sequenzielle Lesen über Bord: Dank Attention betrachtet er alle Tokens gleichzeitig und lernt ihre Beziehungen direkt.

Aufbau

Klassisch besteht er aus zwei Teilen: einem Encoder, der Eingaben in eine Bedeutungsrepräsentation verdichtet, und einem Decoder, der daraus Token für Token neuen Text erzeugt. Je nach Aufgabe nutzt man beide oder nur einen Teil.

Warum er alles veränderte

Weil er parallel rechnet, lässt er sich auf gewaltige Datenmengen und Modellgrößen skalieren. Genau diese Skalierbarkeit führte zu den großen Sprachmodellen (LLMs) — und über Text hinaus zu Bild-, Audio- und Multimodal-Modellen.

Im Netz verbunden

Beispiele / Arten
besteht aus
setzt voraus
Voraussetzung für
LLM
abzugrenzen von
Im Wissensnetz ansehen