14.03
In Computer Science ,Fischerman's Writing ,Hacker ,KI/AI | Tags: Der Fischerman und die KI
Meine KI hat jetzt ein Gedächtnis
Irgendwann kommt der Moment, wo man immer wieder die gleichen Dokumente aufmacht, einen Abschnitt markiert, kopiert, ins Chat-Fenster einfügt und fragt: «Was meint der Hersteller damit genau? Das funktioniert..ein paar mal, aber wenn es immer wieder passiert, wenn die Uploads (und damit der Token-Verbrauch) wachsen, wenn mehrere Leute dasselbe tun – dann ist das kein Prozess, sondern ein Flickwerk.
Besser die KI kennt das Dokument schon und zwar strukturiert für KI’s verständlich abgelegt. Nicht als Kopie im Prompt, sondern dauerhaft, strukturiert jederzeit abrufbar.
Dazu braucht man RAG…

Was RAG ist — in einem Satz
RAG (Retrieval-Augmented Generation) bedeutet: bevor das Modell antwortet, sucht es in einer Wissensbasis nach relevanten Textpassagen und zieht diese als Kontext heran.
Das Ergebnis ist präziser als ein nacktes Sprachmodell, das aus dem Gedächtnis antwortet – und die Dokumente verlassen dabei nicht mal das eigene Netz (Teile davon aber schon !)
Der Weg dahin
Ich habe das System auf meinen Lab-Server aufgebaut: n8n übernimmt den Upload-Flow, LiteLLM dient als API-Gateway, Qdrant speichert die Vektoren, OpenWebUI ist das Chat-Frontend.
Das klingt nach viel. In der Praxis sind es vier Docker-Container und ein n8n-Flow, den ich als kostenlosen Download anbiete. Ob man damit ein PDF hochlädt oder ein Markdown-Dokument – der Flow chunked den Text, erstellt Embeddings und schreibt alles in die Vektordatenbank. OpenWebUI findet die passenden Passagen beim nächsten Chat automatisch.
Was ich dabei gelernt habe
Nicht alles hat sofort funktioniert. Ein falsch konfigurierter Modellname (“embedding-3-small” statt “text-embedding-3-small”) hat zwei Stunden Debugging gekostet. Ein Container-Update hat alle API-Keys invalidiert und jede Iteration des Workflows, wie gewohnt mit neuen (und alten) Bug’s. Zudem muss für das Szenario OpenWebUI so konfiguriert werden, das es auf eigenes Chunking verzichtet und die Datenablage in der Qdrant DB vornimmt. Einiges aber nicht alles haben mir dabei verschiedene KI’s abgenommen, der Flow ist mehr oder weniger komplett mit Vibe-Coding entstanden.
Das Resultat
Ich kann jetzt Dokumente hochladen und direkt per Chat fragen. Die Antworten zitieren die Quelle, sind präzise und kommen aus meinem eigenen System.
Kein Dokument verlässt mein Netz. Keine externen Services ausser dem Embedding-API-Call. (Fast) Volle Kontrolle und mit LiteLLM auch eine Kostenkontrolle mit Budgets für die einzelnen Services.

Wer die technischen Details, die Architektur und den Flow als Download möchte: den vollständigen Projektartikel gibt es hier -> Self-hosted RAG (mit n8n, LiteLLM, Qdrant und OpenWebUI)



Und...wetsch das Cookie ha öder nöd ?
And...do you want the cookie or not ?
0 Responses.