Der Transformer ist die KI-Architektur (2017), die moderne Sprachmodelle ermöglicht. Er verarbeitet ganze Sequenzen parallel über Attention, statt sie Schritt für Schritt zu lesen.
Der Bruch mit dem Bisherigen
Vor dem Transformer verarbeiteten Modelle Text sequenziell (LSTMs) — langsam und vergesslich bei langen Texten. Der Transformer wirft das sequenzielle Lesen über Bord: Dank Attention betrachtet er alle Tokens gleichzeitig und lernt ihre Beziehungen direkt.
Aufbau
Klassisch besteht er aus zwei Teilen: einem Encoder, der Eingaben in eine Bedeutungsrepräsentation verdichtet, und einem Decoder, der daraus Token für Token neuen Text erzeugt. Je nach Aufgabe nutzt man beide oder nur einen Teil.
Warum er alles veränderte
Weil er parallel rechnet, lässt er sich auf gewaltige Datenmengen und Modellgrößen skalieren. Genau diese Skalierbarkeit führte zu den großen Sprachmodellen (LLMs) — und über Text hinaus zu Bild-, Audio- und Multimodal-Modellen.