Ein N-Gramm ist eine Folge von n aufeinanderfolgenden Einheiten eines Textes, meist Wörtern oder Zeichen. N-Gramm-Modelle waren die klassischen Sprachmodelle: Sie schätzen aus Häufigkeiten in Textkorpora, wie wahrscheinlich ein Wort auf die vorangehenden folgt.
Zerlegt man einen Text in überlappende Folgen fester Länge, erhält man seine N-Gramme (englisch n-grams). Anschaulich: Ein Fenster der Breite n wird Wort für Wort über den Text geschoben.
[Der Hund] bellt laut
Der [Hund bellt] laut
Der Hund [bellt laut]
Für n = 2 spricht man von Bigrammen — der Satz enthält die drei Wort-Bigramme „Der Hund", „Hund bellt" und „bellt laut". Mit Fensterbreite 3 ergeben sich die Trigramme „Der Hund bellt" und „Hund bellt laut". Als Einheiten dienen je nach Anwendung Wörter, Zeichen oder Tokens.
Ein N-Gramm-Modell ist ein Sprachmodell, das die Wahrscheinlichkeit des nächsten Worts allein aus den letzten n−1 Wörtern schätzt — die sogenannte Markov-Annahme: Was weiter zurückliegt, wird ignoriert. Die Wahrscheinlichkeiten gewinnt das Modell durch Zählen. Ein Beispiel mit einem Mini-Korpus aus vier Sätzen:
Der Hund bellt. Der Hund schläft. Der Hund bellt. Die Katze schläft.
Welches Wort folgt auf „Hund"? Das Korpus enthält „Hund" dreimal — zweimal gefolgt von „bellt", einmal von „schläft":
| nach „Hund" folgt | Häufigkeit | geschätzte Wahrscheinlichkeit |
|---|---|---|
| bellt | 2× | 2/3 |
| schläft | 1× | 1/3 |
Mehr ist ein Bigramm-Modell nicht: eine Häufigkeitstabelle über alle beobachteten Wortpaare. Nach „Der Hund" sagt es „bellt" voraus. Bereits Claude Shannon nutzte 1948 solche N-Gramm-Näherungen, um englischen Text zu modellieren.
Zwei Probleme begrenzen das Verfahren. Erstens die Datenknappheit: Viele korrekte Wortfolgen kommen selbst in großen Korpora nie vor und erhielten die Wahrscheinlichkeit null; Glättungsverfahren (Smoothing) mildern das nur. Zweitens fehlt die Verallgemeinerung: Für ein N-Gramm-Modell sind „Hund" und „Dackel" beziehungslose Symbole — dass „Der Dackel bellt" plausibel ist, lässt sich aus „Der Hund bellt" nicht ableiten. Größere n verschärfen die Datenknappheit zusätzlich; praktisch blieb man meist bei n = 3 bis 5. Neuronale Sprachmodelle beheben beide Probleme: Ähnliche Wörter erhalten ähnliche Embeddings, sodass auch nie beobachtete Wortfolgen sinnvolle Wahrscheinlichkeiten bekommen.
N-Gramm-Modelle waren jahrzehntelang Standard in Spracherkennung, maschineller Übersetzung und Tastatur-Wortvorschlägen. In der Sprachmodellierung sind sie von neuronalen Modellen abgelöst; als einfache Textstatistik bleiben N-Gramme in Gebrauch, etwa in der Volltextsuche, der Plagiatserkennung oder im Google Books Ngram Viewer, der Worthäufigkeiten über Jahrhunderte auswertet. Die Aufgabe selbst — das nächste Wort vorhersagen — ist dieselbe, die heute LLMs lösen, mit Milliarden gelernten Parametern statt einer Häufigkeitstabelle.
Bag of Words zählt, welche Wörter in einem Text vorkommen, und verwirft die Reihenfolge vollständig. N-Gramme erfassen dagegen die lokale Reihenfolge — allerdings nur innerhalb des festen Fensters von n Einheiten.