Ein RNN (rekurrentes neuronales Netz) verarbeitet Sequenzen Schritt für Schritt und reicht dabei einen inneren Zustand weiter — vor den Transformern der Standard für Sprache.
Text ist eine Folge, bei der das Frühere das Spätere prägt. Ein RNN hat dafür eine eingebaute Schleife: Es liest Element für Element und trägt einen inneren Zustand mit — eine Art Kurzgedächtnis, das bei jedem Schritt aktualisiert wird.
Über viele Schritte verblasst dieses Gedächtnis: Frühe Information geht auf dem Weg verloren, und das Training über lange Folgen wird instabil. Das LSTM milderte das mit gezielten Gedächtnis-'Toren', löste es aber nicht grundsätzlich.
Weil RNNs zwingend nacheinander rechnen, sind sie langsam zu trainieren. Der Transformer ersetzte das Schritt-für-Schritt-Lesen durch Attention, die alle Positionen parallel verbindet — seither spielen RNNs in der Sprachverarbeitung kaum noch eine Rolle.
Das RNN ist das Elternkonzept des LSTM und der wichtigste Transformer-Vorgänger — wer den Umbruch von 2017 verstehen will, braucht beide Seiten.