Die Frage, die heute in vielen Vorstandsrunden gestellt wird, lautet: „Auf welches Wissen kann ich im Unternehmen in Zukunft verzichten?“ Sie entsteht aus einer sehr realen Sorge: Mitarbeiterinnen und Mitarbeiter wechseln das Unternehmen, gehen in Rente, und mit ihnen verschwindet jahrzehntelang aufgebautes Erfahrungswissen. Dieses Wissen liegt zwar irgendwo vor – versteckt in E‑Mails, Chatverläufen, Tickets, Telefonprotokollen, Präsentationen, Wikis, Datenbanken und A/V‑Mitschnitten – aber es wird nicht systematisch erschlossen, nicht kuratiert und schon gar nicht anwendungsbereit gemacht.
Die wirtschaftlich sinnvollere Gegenfrage für 2025 lautet deshalb: Wie bringe ich möglichst viel relevantes Wissen in eine Form, die für Entscheidungen, Compliance und Kundenerlebnisse zuverlässig nutzbar ist – ohne die Kosten explodieren zu lassen?
Genau hier setzt ein professionelles RAG‑System an. Es ist kein „schlaues Chatfenster“, sondern eine Wissenslogistik, die Inhalte in einheitliche, zitierfähige Evidenz verwandelt, in Echtzeit aktuell hält und deren Qualität permanent messbar bleibt.
Warum ein Standard-RAG nicht reicht
Die Forschung ist eindeutig: LLMs nutzen lange Kontexte nicht gleichmäßig gut. Relevante Informationen, die mittig in einem Prompt stehen, werden von Modellen häufiger übersehen, das bekannte Lost‑in‑the‑Middle‑Phänomen. Selbst mit großen Kontextfenstern bleibt dieser Positionsbias bestehen – er wird nicht durch „noch mehr Tokens“ gelöst, sondern durch Architekturentscheidungen, die wichtige Sätze prominent und kompakt in den Kontext bringen. Die wegweisende Arbeit von Liu et al. hat das erstmals systematisch vermessen und ist inzwischen breit repliziert.
Genauso wichtig: Viele Fehlantworten sind keine spontanen Halluzinationen des Modells, sondern Folge schwacher oder falsch priorisierter Evidenz im Retrieval. Dort ist der Hebel, an dem professionelle Systeme ansetzen. Anthropic weist mit Contextual Retrieval nach, dass sich fehlgeschlagene Abrufe nahezu halbieren lassen; in Kombination mit Reranking sinken Abruffehler um bis zu 67 Prozent. Das ist unmittelbarer Qualitäts‑ und Kosteneffekt, weil weniger falsche Kontexte in die Generierung gelangen.
Der Bauplan: vom Rohmaterial zur belegten Antwort
Ein belastbarer RAG‑Stack trennt Index‑Zeit (Wissensaufbereitung) von Query‑Zeit (Antworterzeugung). In der Index‑Zeit orchestriert Dagster den gesamten Fluss: Erkennen neuer oder geänderter Quellen über Sensors, wiederkehrende Läufe über Schedules, Asset‑Lineage, Partitionierung und Backfills für kontrollierte Aktualität. Damit wird der Index ereignisgetrieben und reproduzierbar aktualisiert, statt in manuellen Rebuild‑Zyklen zu altern.
Die Normalisierung beginnt bewusst vor dem Chunking: Docling wandelt PDFs, Office‑Daten, Scans und Bilder in Markdown um, rekonstruiert Tabellen, erhält Layout und Lesereihenfolge und schafft so eine robuste Textbasis, auf der Retrieval und Reranking präziser arbeiten können. Für Audio‑ und Videoquellen ergänzt eine Medienpipeline: Whisper transkribiert zuverlässig auch mehrsprachige Aufnahmen; ffmpeg extrahiert Screenshots mit Zeitstempel; ein Vision‑Language‑Modell erzeugt Bildbeschreibungen. Aus Transkript und erklärenden Screenshots entsteht ein vollständiges Markdown des Videos-einschließlich verlinkter Frames für späteres Zitieren.
… nach der Umwandlung wird’s spannend.

Direkt nach der Umwandlung in Markdown greift Presidio: Personenbezogene Inhalte werden pseudonymisiert oder anonymisiert, bevor sie in Indizes landen. Die Open‑Source‑Bibliothek detektiert PII in Texten und Bildern-von Namen und Adressen über Ausweis‑ und Kreditkartennummern bis zu Telefonnummern-und erlaubt kontrollierte Maskierung oder Ersetzung gemäß Datenschutzvorgaben. Das schützt Betroffene, reduziert rechtliche Risiken und schafft einheitliche Regeln für den Umgang mit sensiblen Daten.
Erst danach folgt Contextual Chunking mit reichlich Metadaten (Titel, Abschnitt, Gültigkeit, Version), Embedding in einen Vektorindex und parallel die BM25‑Indizierung. Die Kombination beider Wege – Hybrid‑Retrieval – ist in Enterprise‑Stacks heute Standard und liefert Robustheit: Synonyme und Paraphrasen werden ebenso abgedeckt wie harte Begriffe, Produktcodes oder Paragrafen. Microsoft beschreibt diese Architektur mittlerweile explizit als RAG-Design-Pattern.
Damit wird die Query‑Zeit einfach: Zuerst kommt der Hybrid‑Abruf, dann ein Reranker als zweiter Blick, der die besten Belege nach oben sortiert, anschließend ein Quality‑Gate, das schwache Evidenz erkennt und definierte Fallbacks auslöst, und schließlich eine Kontext‑Kompression, die nur die wirklich relevanten Sätze mit korrekten Quellenangaben in die Generierung lässt. Ragas und DeepEval messen kontinuierlich, wie gut das System arbeitet-offline in CI/CD und online im Betrieb-über Faithfulness, Kontextpräzision und Antwortrelevanz hinaus. Einzelne Datensätze wie RAGTruth bleiben dabei nur ein kleiner Baustein in einer viel breiteren Bewertungslandschaft.
Für Fragen, die über Dokumentgrenzen hinweg laufen, ergänzt GraphRAG den Standardpfad. Es extrahiert Entitäten und Relationen, baut Community‑Hierarchien und nutzt Graph‑Summaries für den Abruf. Dadurch lassen sich Multihop‑Fragen („Wie hängt A über B und C mit D zusammen, seit wann und mit welchen Belegen?“) erklärbar beantworten. Microsoft stellt Prozess, Code und Dokumentation offen bereit; in der Praxis läuft GraphRAG zielgerichtet neben dem klassischen Top‑K‑Retrieval.
RAG Pipelines 2025
Kennst du noch die einfachen Extraction → Splitting → Embedding -Pipelines für RAG 2023?
Heute, da es um nachweisbaren Business-Benefit statt Vorstandspräsentation geht, sind die Pipelines komplexer. Hier sehen wir ein typisches Beispiel einer aktuellen Infrastruktur, wie wir sie etwa in Kundenprojekten umsetzen:

Von Rohdaten zu Wirtschaftsnutzen: Rollen, Wirkung, Risiken
Die folgende Tabelle verdichtet die geschäftliche Logik hinter jedem Baustein. Sie zeigt, warum das System mehr Wissen aufnehmen kann, ohne unbeherrschbar zu werden – und was geschieht, wenn ein Baustein fehlt.
| Komponente | Aufgabe im System | Business-Nutzen | Risiko ohne diesen Baustein |
|---|---|---|---|
| Dagster Orchestrierung | Ereignis‑ und zeitgesteuerte Index‑Zeit mit Sensors, Schedules, Partitionen, Lineage und Backfills | Immer aktuelle Indizes ohne manuelle Rebuilds, reproduzierbare Läufe, SLAs und Auditsicherheit | Veraltete Inhalte, teure Ad‑hoc‑Jobs, fehlende Nachvollziehbarkeit von Änderungen |
| Docling Markdown | Vereinheitlichung von PDFs, Office, Scans und Bildern zu strukturiertem Markdown inkl. Tabellenrekonstruktion und Layout | Höhere Trefferqualität im Retrieval, robustere Zitate, weniger OCR‑Artefakte | Verlust kritischer Details in Tabellen und Abbildungen, fragmentierte Kontexte |
| Whisper, ffmpeg, VLM | Transkription von Audio, Screenshots mit Zeitstempel, Bildbeschreibungen; vollständiges Markdown für Videos | Erschließung des „A/V ‑ Blinden Flecks“, bessere Trainings‑ und Supportnutzung | Gesprächs‑ und Schulungswissen bleibt unsichtbar, fehlende Evidenzketten |
| Presidio Pseudonymisierung | PII‑Erkennung und Anonymisierung direkt nach Markdown‑Konvertierung | Datenschutz by Design, geringeres Rechtsrisiko, konsistente Regeln | Personenbezogene Daten landen im Index, erschwerte Compliance und Löschprozesse |
| Contextual / Semantic Chunking | Semantisches Schneiden mit Überschriften, Gültigkeit, Version als Metadaten | Bessere Abrufbarkeit und Prüfbarkeit, stabile Belege | Zerrissene Evidenz, schwache Quellenbindung, höherer False‑Negative‑Anteil |
| Hybrid-Retrieval und Reranking | Vereint Vektor‑ und Schlagwortsuche, sortiert die besten Belege nach oben | Hoher Recall und hohe Präzision, weniger „nahe‑dran‑aber‑falsch“ | Relevantes bleibt unsichtbar, irreführende Treffer dominieren den Prompt |
| Quality Gate und Kompression | Konfidenzprüfung mit Fallbacks, extraktive Reduktion und Neuordnung der Sätze | Schutz vor schwacher Evidenz, geringere Tokenkosten, Milderung von Lost‑in‑the‑Middle | Plausible Fehlantworten in der Fläche, steigende Kosten bei sinkender Qualität |
| GraphRAG Multihop | Graph aus Entitäten und Relationen, Community‑Summaries, Abruf entlang Kanten | Erklärbares Multihop‑Retrieval über Dokumentgrenzen, bessere Sensemaking‑Antworten | Verpasste Zusammenhänge, lange Recherchepfade, schwache Herleitbarkeit |
| Ragas und DeepEval | Kontinuierliche Offline‑ und Online‑Evaluation; Integration in CI und Betrieb | Dauerhafte Qualitäts‑ und Kostenkontrolle, gezieltes Tuning statt Bauchgefühl | Blindflug, Qualitätsdrift, verspätete Regressionserkennung |
15 Minuten knallharter Fokus!
In je 15 Minuten alles, was Du wissen musst!
Im KI-Umfeld muss es schnell gehen. Deswegen bieten wir euch auch einen schnellen Einstieg in die wichtigsten Data-KI-Themen. 15 Minuten Fokus, immer mit wertvollen Einblicken und Erkenntnissen aus der Praxis.
Einfach kostenlos anmelden und sofort loslegen.
Wie die Angst vor Wissensverlust zur Investitionslogik wird
Wenn Wissen mit Menschen das Unternehmen verlässt, ist der Nettonutzen jeder Stunde, die heute in Erschließung und Anreicherung investiert wird, überproportional hoch. Denn E‑Mails, Chat‑Threads und Protokolle tragen Kontext, der in formalen Dokumenten fehlt: Entscheidungen, Ausnahmen, Kausalitäten.
In der skizzierten Pipeline werden diese Quellen gleichberechtigte Bürger: Docling und die Medienpipeline ziehen sie auf ein gemeinsames Format, Presidio entfernt oder ersetzt persönliche Bezüge, Dagster hält den Bestand kontinuierlich frisch, und die Query‑Zeit liefert belegte Antworten entlang dokumentierter Versionen. Statt zu entscheiden, auf welches Wissen man verzichten kann, entscheidet die Organisation, wie sie Wissen in Wert verwandelt – mit eingebauter Compliance.
Operativer Kern: drei Prinzipien für CIOs, CDOs, CTOs
1.
Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.
2.
Abruf als Qualitätsregler verstehen. Hybrid‑Retrieval plus Reranking, ergänzt durch Contextual Retrieval, räumt die größten Qualitätsprobleme im Produktionsbetrieb aus dem Weg, bevor das Modell einen Token generiert. Konfidenz‑Gates stoppen schwache Evidenz, Kompression setzt die wichtigen Sätze an den Anfang – damit entzieht man Lost‑in‑the‑Middle die Grundlage.Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.
3.
Messen ist Pflicht, nicht Kür. Ragas und DeepEval bringen Metriken für Faithfulness, Kontextpräzision, Antwortrelevanz, Halluzinationsneigung und vieles mehr; sie laufen im CI‑Zyklus und im Betrieb. Ein Datensatz wie RAGTruth bleibt dabei ein Teil, nicht das Ganze. Ohne diese Beobachtbarkeit laufen Kosten und Qualität auseinander.
Ein kurzer Realitätscheck entlang eines typischen Vorgangs
Ein Standortleiter fragt, welche Spesenregel für externe Berater in Deutschland seit Juli 2024 gilt.
Das System zieht simultan BM25‑ und Vektor‑Treffer, der Reranker priorisiert die Policy‑Seite in Version v2.1 vor einer älteren Mail. Das Qualitäts‑Gate erkennt starke Evidenz und lässt passieren; die Kompression extrahiert nur die drei relevanten Sätze, die Antwort nennt explizit Quelle, Abschnitt, Version und Datum. Wären A/V‑Mitschnitte einer Townhall entscheidend, lägen über die Medienpipeline bereits Transkript und Screenshots mit Bildbeschreibungen vor; enthaltene Namen wären zuvor von Presidio pseudonymisiert.
Fragt der Leiter anschließend, wie sich diese Regel zur globalen Reiserichtlinie verhält, springt GraphRAG an: Die Antwort verlinkt die Beziehung über Entitäten, Zeitstempel und Community‑Summaries – erklärbar und prüfbar.
Steuerung über Kennzahlen
Professionelle Teams führen das System wie eine Produktlinie-mit SLOs für Frische, Zuverlässigkeit und Kosten. Die folgende Tabelle schlägt praxistaugliche Startwerte vor, die Sie mit Ragas und DeepEval kontinuierlich überwachen.
| Kennzahl | Warum sie zählt | Startziel |
|---|---|---|
| Answer‑supported‑Rate | Anteil der Antworten mit korrekter, zitierter Quelle; unmittelbares Vertrauenssignal | ≥ 95 % |
| Context Precision und Context Recall | Wie gut treffen Retrieval und Kompression die relevanten Sätze; Frühwarnsystem für Index‑Drift | ≥ 0,75 Präzision, ≥ 0,85 Recall |
| Time‑to‑First‑Token | Nutzererlebnis und Kostenindikator; Korrelation mit Kontextgröße | < 2 s |
| Kosten pro Antwort | Direkter ROI‑Hebel durch Kompression und Reranking | Monatlich sinkend |
| Gate‑Hit‑Rate | Zeigt Lücken in Inhalten, Indizes oder Sicherheitsschwellen | 5–15 % mit Trend abnehmend |
| Freshness SLO | Zeit bis neue Inhalte indexiert und evaluierbar sind | < 1 h bei Events, < 24 h bei Batches |
Fazit: Nicht verzichten, sondern verwandeln
Die Angst vor Wissensverlust ist berechtigt. Aber die Reaktion darf nicht „Aussortieren“ sein, sondern Verwandeln: Dagster orchestriert eine kontinuierliche Index‑Zeit, die Docling‑normiertes Markdown und Medienartefakte erzeugt, Presidio schützt Identitäten, Contextual Chunking und Hybrid‑Retrieval mit Reranking sichern Qualität, Qualitäts‑Gate und Kompression halten Kosten und Risiken im Zaum, GraphRAG erschließt Multihop‑Zusammenhänge, und Ragas plus DeepEval machen alles messbar.
So entsteht eine Plattform, die viel Wissen aufnehmen kann, ohne unbeherrschbar zu werden – eine Plattform, die Antworten nicht nur generiert, sondern begründet, kontrolliert und skaliert. Genau das ist 2025 der Unterschied zwischen RAG als Demo und RAG als Wettbewerbsvorteil.



Schreibe einen Kommentar