KI-Glossar ·NLP

N-Gramm

Auch: N-Gram, N-Gramme, N-Gramm-Modell, Bigramm, Trigramm

Ein N-Gramm ist eine Folge von n aufeinanderfolgenden Einheiten eines Textes, meist Wörtern oder Zeichen. N-Gramm-Modelle waren die klassischen Sprachmodelle: Sie schätzen aus Häufigkeiten in Textkorpora, wie wahrscheinlich ein Wort auf die vorangehenden folgt.

Das Schiebefenster-Prinzip

Zerlegt man einen Text in überlappende Folgen fester Länge, erhält man seine N-Gramme (englisch n-grams). Anschaulich: Ein Fenster der Breite n wird Wort für Wort über den Text geschoben.

[Der Hund] bellt laut
Der [Hund bellt] laut
Der Hund [bellt laut]

Für n = 2 spricht man von Bigrammen — der Satz enthält die drei Wort-Bigramme „Der Hund", „Hund bellt" und „bellt laut". Mit Fensterbreite 3 ergeben sich die Trigramme „Der Hund bellt" und „Hund bellt laut". Als Einheiten dienen je nach Anwendung Wörter, Zeichen oder Tokens.

Das N-Gramm-Modell

Ein N-Gramm-Modell ist ein Sprachmodell, das die Wahrscheinlichkeit des nächsten Worts allein aus den letzten n−1 Wörtern schätzt — die sogenannte Markov-Annahme: Was weiter zurückliegt, wird ignoriert. Die Wahrscheinlichkeiten gewinnt das Modell durch Zählen. Ein Beispiel mit einem Mini-Korpus aus vier Sätzen:

Der Hund bellt. Der Hund schläft. Der Hund bellt. Die Katze schläft.

Welches Wort folgt auf „Hund"? Das Korpus enthält „Hund" dreimal — zweimal gefolgt von „bellt", einmal von „schläft":

nach „Hund" folgt	Häufigkeit	geschätzte Wahrscheinlichkeit
bellt	2×	2/3
schläft	1×	1/3

Mehr ist ein Bigramm-Modell nicht: eine Häufigkeitstabelle über alle beobachteten Wortpaare. Nach „Der Hund" sagt es „bellt" voraus. Bereits Claude Shannon nutzte 1948 solche N-Gramm-Näherungen, um englischen Text zu modellieren.

Die Grenzen

Zwei Probleme begrenzen das Verfahren. Erstens die Datenknappheit: Viele korrekte Wortfolgen kommen selbst in großen Korpora nie vor und erhielten die Wahrscheinlichkeit null; Glättungsverfahren (Smoothing) mildern das nur. Zweitens fehlt die Verallgemeinerung: Für ein N-Gramm-Modell sind „Hund" und „Dackel" beziehungslose Symbole — dass „Der Dackel bellt" plausibel ist, lässt sich aus „Der Hund bellt" nicht ableiten. Größere n verschärfen die Datenknappheit zusätzlich; praktisch blieb man meist bei n = 3 bis 5. Neuronale Sprachmodelle beheben beide Probleme: Ähnliche Wörter erhalten ähnliche Embeddings, sodass auch nie beobachtete Wortfolgen sinnvolle Wahrscheinlichkeiten bekommen.

Verwendung und Einordnung

N-Gramm-Modelle waren jahrzehntelang Standard in Spracherkennung, maschineller Übersetzung und Tastatur-Wortvorschlägen. In der Sprachmodellierung sind sie von neuronalen Modellen abgelöst; als einfache Textstatistik bleiben N-Gramme in Gebrauch, etwa in der Volltextsuche, der Plagiatserkennung oder im Google Books Ngram Viewer, der Worthäufigkeiten über Jahrhunderte auswertet. Die Aufgabe selbst — das nächste Wort vorhersagen — ist dieselbe, die heute LLMs lösen, mit Milliarden gelernten Parametern statt einer Häufigkeitstabelle.

Abgrenzung

Bag of Words zählt, welche Wörter in einem Text vorkommen, und verwirft die Reihenfolge vollständig. N-Gramme erfassen dagegen die lokale Reihenfolge — allerdings nur innerhalb des festen Fensters von n Einheiten.

Im Netz verbunden

ist ein/eine

Sprachmodell

abzugrenzen von

Bag of Words

Im Wissensnetz ansehen