Blog » AI » RAG mit Mehrwert

RAG mit Mehrwert

Wie man Wissen zur Infrastruktur macht

2. Dezember 2025

Die Frage, die heute in vielen Vorstandsrunden gestellt wird, lautet: „Auf welches Wissen kann ich im Unternehmen in Zukunft verzichten?“ Sie entsteht aus einer sehr realen Sorge: Mitarbeiterinnen und Mitarbeiter wechseln das Unternehmen, gehen in Rente, und mit ihnen verschwindet jahrzehntelang aufgebautes Erfahrungswissen. Dieses Wissen liegt zwar irgendwo vor – versteckt in E‑Mails, Chatverläufen, Tickets, Telefonprotokollen, Präsentationen, Wikis, Datenbanken und A/V‑Mitschnitten – aber es wird nicht systematisch erschlossen, nicht kuratiert und schon gar nicht anwendungsbereit gemacht.

Kurze Unterbrechung – wo wir unsere Erfahrung sammeln

Mayflower Labs

Wir arbeiten nicht nur intensiv an KI-Projekten, sondern setzen auch massiv auf R&D. Unsere R&D-Projekte werden aber nicht in Schubladen verstaut. Sie lösen echte Kundenprobleme und fließen direkt in produktionsreife Lösungen ein.

Wirf einen Blick in den Maschinenraum

Die wirtschaftlich sinnvollere Gegenfrage für 2025 lautet deshalb: Wie bringe ich möglichst viel relevantes Wissen in eine Form, die für Entscheidungen, Compliance und Kundenerlebnisse zuverlässig nutzbar ist – ohne die Kosten explodieren zu lassen?

Genau hier setzt ein professionelles RAG‑System an. Es ist kein „schlaues Chatfenster“, sondern eine Wissenslogistik, die Inhalte in einheitliche, zitierfähige Evidenz verwandelt, in Echtzeit aktuell hält und deren Qualität permanent messbar bleibt.

Warum ein Standard-RAG nicht reicht

Die Forschung ist eindeutig: LLMs nutzen lange Kontexte nicht gleichmäßig gut. Relevante Informationen, die mittig in einem Prompt stehen, werden von Modellen häufiger übersehen, das bekannte Lost‑in‑the‑Middle‑Phänomen. Selbst mit großen Kontextfenstern bleibt dieser Positionsbias bestehen – er wird nicht durch „noch mehr Tokens“ gelöst, sondern durch Architekturentscheidungen, die wichtige Sätze prominent und kompakt in den Kontext bringen. Die wegweisende Arbeit von Liu et al. hat das erstmals systematisch vermessen und ist inzwischen breit repliziert.

Genauso wichtig: Viele Fehlantworten sind keine spontanen Halluzinationen des Modells, sondern Folge schwacher oder falsch priorisierter Evidenz im Retrieval. Dort ist der Hebel, an dem professionelle Systeme ansetzen. Anthropic weist mit Contextual Retrieval nach, dass sich fehlgeschlagene Abrufe nahezu halbieren lassen; in Kombination mit Reranking sinken Abruffehler um bis zu 67 Prozent. Das ist unmittelbarer Qualitäts‑ und Kosteneffekt, weil weniger falsche Kontexte in die Generierung gelangen.

Mehr als nur ein Standard-Rag in der Praxis

RAGs sind aus dem Business-Alltag nicht mehr wegzudenken. Um hier einen Schritt voraus zu sein, haben wir uns ausführlich damit in unseren R&D-Projekten beschäftigt – unter anderem in unserem mAIstack.

Der Bauplan: vom Rohmaterial zur belegten Antwort

Ein belastbarer RAG‑Stack trennt Index‑Zeit (Wissensaufbereitung) von Query‑Zeit (Antworterzeugung). In der Index‑Zeit orchestriert Dagster den gesamten Fluss: Erkennen neuer oder geänderter Quellen über Sensors, wiederkehrende Läufe über Schedules, Asset‑Lineage, Partitionierung und Backfills für kontrollierte Aktualität. Damit wird der Index ereignisgetrieben und reproduzierbar aktualisiert, statt in manuellen Rebuild‑Zyklen zu altern.

Die Normalisierung beginnt bewusst vor dem Chunking: Docling wandelt PDFs, Office‑Daten, Scans und Bilder in Markdown um, rekonstruiert Tabellen, erhält Layout und Lesereihenfolge und schafft so eine robuste Textbasis, auf der Retrieval und Reranking präziser arbeiten können. Für Audio‑ und Videoquellen ergänzt eine Medienpipeline: Whisper transkribiert zuverlässig auch mehrsprachige Aufnahmen; ffmpeg extrahiert Screenshots mit Zeitstempel; ein Vision‑Language‑Modell erzeugt Bildbeschreibungen. Aus Transkript und erklärenden Screenshots entsteht ein vollständiges Markdown des Videos-einschließlich verlinkter Frames für späteres Zitieren.

… nach der Umwandlung wird’s spannend.

Direkt nach der Umwandlung in Markdown greift Presidio: Personenbezogene Inhalte werden pseudonymisiert oder anonymisiert, bevor sie in Indizes landen. Die Open‑Source‑Bibliothek detektiert PII in Texten und Bildern-von Namen und Adressen über Ausweis‑ und Kreditkartennummern bis zu Telefonnummern-und erlaubt kontrollierte Maskierung oder Ersetzung gemäß Datenschutzvorgaben. Das schützt Betroffene, reduziert rechtliche Risiken und schafft einheitliche Regeln für den Umgang mit sensiblen Daten.

Erst danach folgt Contextual Chunking mit reichlich Metadaten (Titel, Abschnitt, Gültigkeit, Version), Embedding in einen Vektorindex und parallel die BM25‑Indizierung. Die Kombination beider Wege – Hybrid‑Retrieval – ist in Enterprise‑Stacks heute Standard und liefert Robustheit: Synonyme und Paraphrasen werden ebenso abgedeckt wie harte Begriffe, Produktcodes oder Paragrafen. Microsoft beschreibt diese Architektur mittlerweile explizit als RAG-Design-Pattern.

Damit wird die Query‑Zeit einfach: Zuerst kommt der Hybrid‑Abruf, dann ein Reranker als zweiter Blick, der die besten Belege nach oben sortiert, anschließend ein Quality‑Gate, das schwache Evidenz erkennt und definierte Fallbacks auslöst, und schließlich eine Kontext‑Kompression, die nur die wirklich relevanten Sätze mit korrekten Quellenangaben in die Generierung lässt. Ragas und DeepEval messen kontinuierlich, wie gut das System arbeitet-offline in CI/CD und online im Betrieb-über Faithfulness, Kontextpräzision und Antwortrelevanz hinaus. Einzelne Datensätze wie RAGTruth bleiben dabei nur ein kleiner Baustein in einer viel breiteren Bewertungslandschaft.

Für Fragen, die über Dokumentgrenzen hinweg laufen, ergänzt GraphRAG den Standardpfad. Es extrahiert Entitäten und Relationen, baut Community‑Hierarchien und nutzt Graph‑Summaries für den Abruf. Dadurch lassen sich Multihop‑Fragen („Wie hängt A über B und C mit D zusammen, seit wann und mit welchen Belegen?“) erklärbar beantworten. Microsoft stellt Prozess, Code und Dokumentation offen bereit; in der Praxis läuft GraphRAG zielgerichtet neben dem klassischen Top‑K‑Retrieval.

RAG Pipelines 2025

Kennst du noch die einfachen Extraction → Splitting → Embedding -Pipelines für RAG 2023?
Heute, da es um nachweisbaren Business-Benefit statt Vorstandspräsentation geht, sind die Pipelines komplexer. Hier sehen wir ein typisches Beispiel einer aktuellen Infrastruktur, wie wir sie etwa in Kundenprojekten umsetzen:

Von Rohdaten zu Wirtschaftsnutzen: Rollen, Wirkung, Risiken

Die folgende Tabelle verdichtet die geschäftliche Logik hinter jedem Baustein. Sie zeigt, warum das System mehr Wissen aufnehmen kann, ohne unbeherrschbar zu werden – und was geschieht, wenn ein Baustein fehlt.

Komponente	Aufgabe im System	Business-Nutzen	Risiko ohne diesen Baustein
Dagster Orchestrierung	Ereignis‑ und zeitgesteuerte Index‑Zeit mit Sensors, Schedules, Partitionen, Lineage und Backfills	Immer aktuelle Indizes ohne manuelle Rebuilds, reproduzierbare Läufe, SLAs und Auditsicherheit	Veraltete Inhalte, teure Ad‑hoc‑Jobs, fehlende Nachvollziehbarkeit von Änderungen
Docling Markdown	Vereinheitlichung von PDFs, Office, Scans und Bildern zu strukturiertem Markdown inkl. Tabellenrekonstruktion und Layout	Höhere Trefferqualität im Retrieval, robustere Zitate, weniger OCR‑Artefakte	Verlust kritischer Details in Tabellen und Abbildungen, fragmentierte Kontexte
Whisper, ffmpeg, VLM	Transkription von Audio, Screenshots mit Zeitstempel, Bildbeschreibungen; vollständiges Markdown für Videos	Erschließung des „A/V ‑ Blinden Flecks“, bessere Trainings‑ und Supportnutzung	Gesprächs‑ und Schulungswissen bleibt unsichtbar, fehlende Evidenzketten
Presidio Pseudonymisierung	PII‑Erkennung und Anonymisierung direkt nach Markdown‑Konvertierung	Datenschutz by Design, geringeres Rechtsrisiko, konsistente Regeln	Personenbezogene Daten landen im Index, erschwerte Compliance und Löschprozesse
Contextual / Semantic Chunking	Semantisches Schneiden mit Überschriften, Gültigkeit, Version als Metadaten	Bessere Abrufbarkeit und Prüfbarkeit, stabile Belege	Zerrissene Evidenz, schwache Quellenbindung, höherer False‑Negative‑Anteil
Hybrid-Retrieval und Reranking	Vereint Vektor‑ und Schlagwortsuche, sortiert die besten Belege nach oben	Hoher Recall und hohe Präzision, weniger „nahe‑dran‑aber‑falsch“	Relevantes bleibt unsichtbar, irreführende Treffer dominieren den Prompt
Quality Gate und Kompression	Konfidenzprüfung mit Fallbacks, extraktive Reduktion und Neuordnung der Sätze	Schutz vor schwacher Evidenz, geringere Tokenkosten, Milderung von Lost‑in‑the‑Middle	Plausible Fehlantworten in der Fläche, steigende Kosten bei sinkender Qualität
GraphRAG Multihop	Graph aus Entitäten und Relationen, Community‑Summaries, Abruf entlang Kanten	Erklärbares Multihop‑Retrieval über Dokumentgrenzen, bessere Sensemaking‑Antworten	Verpasste Zusammenhänge, lange Recherchepfade, schwache Herleitbarkeit
Ragas und DeepEval	Kontinuierliche Offline‑ und Online‑Evaluation; Integration in CI und Betrieb	Dauerhafte Qualitäts‑ und Kostenkontrolle, gezieltes Tuning statt Bauchgefühl	Blindflug, Qualitätsdrift, verspätete Regressionserkennung

15 Minuten knallharter Fokus!

In je 15 Minuten alles, was Du wissen musst!

Im KI-Umfeld muss es schnell gehen. Deswegen bieten wir euch auch einen schnellen Einstieg in die wichtigsten Data-KI-Themen. 15 Minuten Fokus, immer mit wertvollen Einblicken und Erkenntnissen aus der Praxis.

Einfach kostenlos anmelden und sofort loslegen.

Wie die Angst vor Wissensverlust zur Investitionslogik wird

Wenn Wissen mit Menschen das Unternehmen verlässt, ist der Nettonutzen jeder Stunde, die heute in Erschließung und Anreicherung investiert wird, überproportional hoch. Denn E‑Mails, Chat‑Threads und Protokolle tragen Kontext, der in formalen Dokumenten fehlt: Entscheidungen, Ausnahmen, Kausalitäten.

In der skizzierten Pipeline werden diese Quellen gleichberechtigte Bürger: Docling und die Medienpipeline ziehen sie auf ein gemeinsames Format, Presidio entfernt oder ersetzt persönliche Bezüge, Dagster hält den Bestand kontinuierlich frisch, und die Query‑Zeit liefert belegte Antworten entlang dokumentierter Versionen. Statt zu entscheiden, auf welches Wissen man verzichten kann, entscheidet die Organisation, wie sie Wissen in Wert verwandelt – mit eingebauter Compliance.

Operativer Kern: drei Prinzipien für CIOs, CDOs, CTOs

Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.

Abruf als Qualitätsregler verstehen. Hybrid‑Retrieval plus Reranking, ergänzt durch Contextual Retrieval, räumt die größten Qualitätsprobleme im Produktionsbetrieb aus dem Weg, bevor das Modell einen Token generiert. Konfidenz‑Gates stoppen schwache Evidenz, Kompression setzt die wichtigen Sätze an den Anfang – damit entzieht man Lost‑in‑the‑Middle die Grundlage.Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.

Messen ist Pflicht, nicht Kür. Ragas und DeepEval bringen Metriken für Faithfulness, Kontextpräzision, Antwortrelevanz, Halluzinationsneigung und vieles mehr; sie laufen im CI‑Zyklus und im Betrieb. Ein Datensatz wie RAGTruth bleibt dabei ein Teil, nicht das Ganze. Ohne diese Beobachtbarkeit laufen Kosten und Qualität auseinander.

Ein kurzer Realitätscheck entlang eines typischen Vorgangs

Ein Standortleiter fragt, welche Spesenregel für externe Berater in Deutschland seit Juli 2024 gilt.

Das System zieht simultan BM25‑ und Vektor‑Treffer, der Reranker priorisiert die Policy‑Seite in Version v2.1 vor einer älteren Mail. Das Qualitäts‑Gate erkennt starke Evidenz und lässt passieren; die Kompression extrahiert nur die drei relevanten Sätze, die Antwort nennt explizit Quelle, Abschnitt, Version und Datum. Wären A/V‑Mitschnitte einer Townhall entscheidend, lägen über die Medienpipeline bereits Transkript und Screenshots mit Bildbeschreibungen vor; enthaltene Namen wären zuvor von Presidio pseudonymisiert.

Fragt der Leiter anschließend, wie sich diese Regel zur globalen Reiserichtlinie verhält, springt GraphRAG an: Die Antwort verlinkt die Beziehung über Entitäten, Zeitstempel und Community‑Summaries – erklärbar und prüfbar.

Steuerung über Kennzahlen

Professionelle Teams führen das System wie eine Produktlinie-mit SLOs für Frische, Zuverlässigkeit und Kosten. Die folgende Tabelle schlägt praxistaugliche Startwerte vor, die Sie mit Ragas und DeepEval kontinuierlich überwachen.

Kennzahl	Warum sie zählt	Startziel
Answer‑supported‑Rate	Anteil der Antworten mit korrekter, zitierter Quelle; unmittelbares Vertrauenssignal	≥ 95 %
Context Precision und Context Recall	Wie gut treffen Retrieval und Kompression die relevanten Sätze; Frühwarnsystem für Index‑Drift	≥ 0,75 Präzision, ≥ 0,85 Recall
Time‑to‑First‑Token	Nutzererlebnis und Kostenindikator; Korrelation mit Kontextgröße	< 2 s
Kosten pro Antwort	Direkter ROI‑Hebel durch Kompression und Reranking	Monatlich sinkend
Gate‑Hit‑Rate	Zeigt Lücken in Inhalten, Indizes oder Sicherheitsschwellen	5–15 % mit Trend abnehmend
Freshness SLO	Zeit bis neue Inhalte indexiert und evaluierbar sind	< 1 h bei Events, < 24 h bei Batches

Fazit: Nicht verzichten, sondern verwandeln

Die Angst vor Wissensverlust ist berechtigt. Aber die Reaktion darf nicht „Aussortieren“ sein, sondern Verwandeln: Dagster orchestriert eine kontinuierliche Index‑Zeit, die Docling‑normiertes Markdown und Medienartefakte erzeugt, Presidio schützt Identitäten, Contextual Chunking und Hybrid‑Retrieval mit Reranking sichern Qualität, Qualitäts‑Gate und Kompression halten Kosten und Risiken im Zaum, GraphRAG erschließt Multihop‑Zusammenhänge, und Ragas plus DeepEval machen alles messbar.

So entsteht eine Plattform, die viel Wissen aufnehmen kann, ohne unbeherrschbar zu werden – eine Plattform, die Antworten nicht nur generiert, sondern begründet, kontrolliert und skaliert. Genau das ist 2025 der Unterschied zwischen RAG als Demo und RAG als Wettbewerbsvorteil.

Das ist dein Alltag?

Wenn wir nicht alle beantworten konnten, ist hier unser Angebot: Melde Dich unverbindlich bei uns und wir schauen uns gemeinsam an, ob und wie wir Dich unterstützen können.

Johann bezeichnet sich als „Chief Tailwind Officer“ und sieht Rückenwind für Kollegen, Teams und das Unternehmen als seine oberste Aufgabe. Er mag tatsächlich seine Arbeit mit den Kollegen sehr und ist dankbar dafür, mit ihnen zusammenarbeiten zu dürfen.

ai pipeline rag tech

Kommentare

Schreibe einen Kommentar Antwort abbrechen

Newsletter

Aktuelle Artikel per Mail

Verpasse keinen Artikel mehr und lass Dich von uns benachrichtigen, sobald es etwas Neues im Blog gibt.

Für das Handling unseres Newsletters nutzen wir den Dienst HubSpot. Mehr Informationen, insbesondere auch zu Deinem Widerrufsrecht, kannst Du jederzeit unserer Datenschutzerklärung entnehmen.