KI-Glossar ·NLP

Embedding

Auch: Embeddings, Einbettung, Vektordarstellung

Ein Embedding ist die Darstellung von Text (oder Bildern, Audio) als Vektor aus Zahlen, der Bedeutung einfängt: Inhaltlich Ähnliches liegt im Vektorraum nah beieinander.

Bedeutung als Koordinaten

Ein Embedding ordnet jedem Stück Inhalt einen Punkt in einem hochdimensionalen Raum zu. Die Lage ist nicht zufällig: 'Arzt' und 'Ärztin' liegen nah, 'Banane' weit weg. So wird semantische Ähnlichkeit messbar — als Abstand zwischen Punkten.

Wörter als Punkte im Bedeutungsraum: Hund, Katze und Pferd liegen nah beieinander, Obst und Fahrzeuge bilden eigene Gruppen

Einsatzgebiete

Embeddings sind die Grundlage semantischer Suche (finde inhaltlich Passendes, nicht nur Wortgleiches) und von RAG. Auch in Sprachmodellen werden Tokens zunächst in Embeddings übersetzt, bevor sie verarbeitet werden.

Herkunft der Vektoren

Ein Modell lernt Embeddings aus großen Datenmengen. Frühe Verfahren wie word2vec erzeugten ein festes Embedding pro Wort; moderne Modelle berechnen sie kontextabhängig — dasselbe Wort kann je nach Satz anders eingebettet werden.

Im Netz verbunden

setzt voraus

Feature Token

Voraussetzung für

Positional Encoding word2vec RAG Attention

wird genutzt von

Semantische Suche Reranking Vektordatenbank RAG

abzugrenzen von

Bag of Words Token

Im Wissensnetz ansehen