KI-Glossar ·Transformer

Transformer

Auch: Transformer-Architektur

Der Transformer ist die KI-Architektur (2017), die moderne Sprachmodelle ermöglicht. Er verarbeitet ganze Sequenzen parallel über Attention, statt sie Schritt für Schritt zu lesen.

Der Bruch mit dem Bisherigen

Vor dem Transformer verarbeiteten Modelle Text sequenziell (LSTMs) — langsam, und Information über lange Distanzen ging verloren. Der Transformer verzichtet auf das sequenzielle Lesen: Dank Attention betrachtet er alle Tokens gleichzeitig und lernt ihre Beziehungen direkt.

Aufbau

Klassisch besteht er aus zwei Teilen: einem Encoder, der Eingaben in eine Bedeutungsrepräsentation verdichtet, und einem Decoder, der daraus Token für Token neuen Text erzeugt. Je nach Aufgabe nutzt man beide oder nur einen Teil.

Transformer: Encoder liest die ganze Eingabe parallel, Decoder erzeugt die Ausgabe Token für Token

Die Umwälzung

Weil er parallel rechnet, lässt er sich auf sehr große Datenmengen und Modellgrößen skalieren. Genau diese Skalierbarkeit führte zu den großen Sprachmodellen (LLMs) — und über Text hinaus zu Bild-, Audio- und Multimodal-Modellen.

Im Netz verbunden

Beispiele / Arten

BERT

besteht aus

Positional Encoding Decoder Encoder

setzt voraus

Neuronales Netz Attention

Voraussetzung für

LLM

abzugrenzen von

RNN LSTM

Im Wissensnetz ansehen