RAG einfach erklärt: wie LLMs auf deine Daten zugreifen
Was Retrieval Augmented Generation ist, warum es funktioniert und wann du es einsetzen solltest – aus der Praxis.
LLMs wie GPT-4 oder Claude wissen viel – aber sie wissen nichts über deine Dokumente, deinen Code, dein Wiki. Genau hier kommt Retrieval Augmented Generation (RAG) ins Spiel.
Was ist RAG?
RAG ist ein einfaches Muster: vor der LLM-Anfrage holst du relevante Stücke aus deinen eigenen Daten und fügst sie dem Prompt bei. Das LLM antwortet dann auf Basis dieser Stücke statt nur aus seinem Pretraining.
Die Pipeline besteht aus drei Schritten:
- Indexierung – Dokumente in kleine Chunks zerlegen, Embeddings berechnen, in einer Vector-DB speichern
- Retrieval – Bei einer Nutzerfrage die ähnlichsten Chunks aus der DB holen
- Generation – Die Chunks zusammen mit der Frage an das LLM schicken
Warum funktioniert das?
Der Trick: Embeddings übersetzen Text in einen Vektor, der die Bedeutung kodiert. Zwei Texte mit ähnlicher Bedeutung haben ähnliche Vektoren – auch wenn die Wörter anders sind. So findest du "Wie kündige ich mein Abo?" durch eine Frage wie "Vertrag beenden".
Wann RAG einsetzen?
- Wenn dein LLM auf interne Daten zugreifen soll, die nicht im Pretraining waren
- Wenn die Antworten belegbar sein müssen (du kannst Quellen anzeigen)
- Wenn die Daten regelmäßig aktualisiert werden (Re-Training wäre zu teuer)
- Wenn die Datenmenge zu gross für den Context-Window ist
Wann nicht?
- Bei kleinen, statischen Datensets, die komplett in den Context passen
- Wenn du deterministische Antworten brauchst (LLMs halluzinieren auch mit Context)
- Wenn die Latenz extrem niedrig sein muss (RAG kostet 100-500ms extra für Retrieval)
Praxis-Hinweis aus meinen Projekten
Bei einem on-premise RAG-System für die juristische Domäne haben wir mit hybrider Suche (Vector + BM25 via Reciprocal Rank Fusion) MRR@5: 0.96 erreicht. Reines Vector-Retrieval lag deutlich darunter. Lektion: kombiniere semantische und lexikalische Suche, gerade in spezialisierten Domänen mit Fachbegriffen.
Nächste Schritte
In den nächsten Posts gehe ich auf konkrete Komponenten ein:
- Chunking-Strategien
- Embedding-Modelle vergleichen
- Hybrid Search mit RRF
- LLM-Evaluation mit MRR@5 und Recall@5
Wenn du Fragen oder eigene Erfahrungen hast – schreib mir gern eine Mail.