Ein Sprachmodell ist ein mathematisches Modell, das die Abfolge von Elementen in einer Sequenz — meist Wörter oder Tokens in Texten — mit Wahrscheinlichkeiten beschreibt: Wie wahrscheinlich folgt dieses Element auf die bisherigen?
Ein Sprachmodell ordnet Wortfolgen Wahrscheinlichkeiten zu. Praktisch berechnet es meist die bedingte Wahrscheinlichkeit des nächsten Elements gegeben die bisherigen: Nach 'Der Hund' ist 'bellt' wahrscheinlicher als 'blüht'. Die Wahrscheinlichkeit einer ganzen Sequenz ergibt sich als Produkt dieser Einzelwahrscheinlichkeiten.
Frühe Sprachmodelle schätzten die Wahrscheinlichkeiten aus Häufigkeiten in Textkorpora — mit der vereinfachenden Annahme, dass nur die letzten n−1 Wörter zählen (N-Gramm-Modell, Markov-Annahme). Solche Modelle wurden lange in Spracherkennung, maschineller Übersetzung und Tastatur-Wortvorschlägen eingesetzt.
Neuronale Netze berechnen die Wahrscheinlichkeiten stattdessen über gelernte Parameter. Sie verallgemeinern besser, weil ähnliche Wörter ähnliche Embeddings erhalten — eine Wortfolge muss nicht wörtlich beobachtet worden sein, um eine sinnvolle Wahrscheinlichkeit zu bekommen. Heutige neuronale Sprachmodelle beruhen auf dem Transformer.
Skaliert man neuronale Sprachmodelle auf Milliarden Parameter und sehr große Textkorpora, entstehen LLMs — Sprachmodelle, deren Vorhersagefähigkeit für Texterzeugung, Übersetzung und Frage-Antwort-Aufgaben ausreicht. Aus der modellierten Wahrscheinlichkeitsverteilung erzeugt man Text per Sampling.