KI-Glossar ·RAG

Chunking

Auch: Zerstückelung, Textaufteilung

Chunking ist das Zerlegen langer Dokumente in handliche Stücke (Chunks) vor der Embedding-Erstellung.

Der Grund für das Zerlegen

Ein ganzes Dokument als ein Embedding wäre zu grob — die Bedeutung verwischt. Außerdem soll dem Modell später nur der relevante Abschnitt mitgegeben werden, nicht das ganze Buch. Also schneidet man den Text in Stücke und bettet jedes einzeln ein.

Die richtige Größe

Zu kleine Chunks reißen den Zusammenhang auseinander, zu große verwässern die Bedeutung und füllen das Kontextfenster. Oft lässt man Chunks etwas überlappen, damit an den Schnittkanten kein Sinn verloren geht. Die Chunk-Größe entscheidet spürbar mit, ob das Retrieval die richtige Stelle findet.

Einordnung

Chunking ist ein unscheinbarer, aber qualitätsentscheidender Vorbereitungsschritt jeder RAG-Pipeline.

Im Netz verbunden

wird genutzt von

RAG

Im Wissensnetz ansehen