KI-Glossar ·Nlp

Bag of Words

Auch: BoW, Wortsack

Bag of Words ist eine frühe Methode, Text für den Computer darstellbar zu machen: Man zählt, wie oft jedes Wort vorkommt — die Reihenfolge geht dabei verloren.

Wie es funktioniert

Man legt ein Vokabular aller vorkommenden Wörter an und beschreibt jeden Text durch die Häufigkeit jedes Worts. 'Der Hund bellt' und 'bellt der Hund' ergeben denselben Bag of Words — die Reihenfolge ist weg, nur die Zählung bleibt.

Stärken und Schwächen

Die Methode ist einfach, schnell und reicht für grobe Aufgaben wie Spam-Erkennung. Aber sie versteht keine Bedeutung: 'gut' und 'schlecht' sind für sie nur zwei verschiedene Wörter, und Zusammenhänge über die Wortreihenfolge gehen verloren.

Einordnung

Bag of Words war lange ein Arbeitspferd der Textverarbeitung. Heute ist es weitgehend von Embeddings abgelöst, die echte Bedeutung erfassen — als einfacher Einstieg ins Thema 'Text zu Zahlen' bleibt es lehrreich.

Im Netz verbunden

abzugrenzen von
Im Wissensnetz ansehen