Ein Embedding ist die Darstellung von Text (oder Bildern, Audio) als Vektor aus Zahlen, der Bedeutung einfängt: Inhaltlich Ähnliches liegt im Vektorraum nah beieinander.
Bedeutung als Koordinaten
Ein Embedding ordnet jedem Stück Inhalt einen Punkt in einem hochdimensionalen Raum zu. Die Lage ist nicht zufällig: 'Arzt' und 'Ärztin' liegen nah, 'Banane' weit weg. So wird semantische Ähnlichkeit messbar — als Abstand zwischen Punkten.
Wofür man sie braucht
Embeddings sind die Grundlage semantischer Suche (finde inhaltlich Passendes, nicht nur Wortgleiches) und von RAG. Auch in Sprachmodellen werden Tokens zunächst in Embeddings übersetzt, bevor sie verarbeitet werden.
Woher sie kommen
Ein Modell lernt Embeddings aus großen Datenmengen. Frühe Verfahren wie word2vec erzeugten ein festes Embedding pro Wort; moderne Modelle berechnen sie kontextabhängig — dasselbe Wort kann je nach Satz anders eingebettet werden.