RAG (Retrieval-Augmented Generation) ist eine Technik, bei der das Modell zur Laufzeit passendes Wissen heraussucht und in den Prompt nimmt, bevor es antwortet — so nutzt es eigene oder aktuelle Daten, ohne neu trainiert zu werden.
Das Problem, das es löst
Ein Sprachmodell weiß nur, was bis zum Trainingsende in seinen Daten stand — nichts über deine Dokumente und nichts Tagesaktuelles. RAG schließt diese Lücke, ohne das Modell teuer nachzutrainieren.
Wie es abläuft
Zwei Schritte: Retrieval — zur Frage werden die passendsten Textstücke aus einer Wissensbasis gesucht (meist über Embeddings und eine Vektordatenbank). Generation — diese Stücke gibt man dem Modell mit in den Prompt, das daraus seine Antwort formuliert, idealerweise mit Quellenbezug.
Warum es sich lohnt
RAG liefert aktuelle, belegbare Antworten auf eigenem Wissen und senkt Halluzinationen, weil das Modell sich auf mitgelieferte Fakten stützt statt frei zu raten.
Abgrenzung
Anders als beim Fine-Tuning bleibt das Modell unverändert — das Wissen kommt erst zur Laufzeit dazu und lässt sich jederzeit aktualisieren.