RAG mit Mehrwert

Blog » AI » RAG mit Mehrwert

RAG mit Mehrwert

Wie man Wissen zur Infrastruktur macht

Avatar von Johann-Peter Hartmann

Die Frage, die heute in vielen Vorstandsrunden gestellt wird, lautet: „Auf welches Wissen kann ich im Unternehmen in Zukunft verzichten?“ Sie entsteht aus einer sehr realen Sorge: Mitarbeiterinnen und Mitarbeiter wechseln das Unternehmen, gehen in Rente, und mit ihnen verschwindet jahrzehntelang aufgebautes Erfahrungswissen. Dieses Wissen liegt zwar irgendwo vor – versteckt in E‑Mails, Chatverläufen, Tickets, Telefonprotokollen, Präsentationen, Wikis, Datenbanken und A/V‑Mitschnitten – aber es wird nicht systematisch erschlossen, nicht kuratiert und schon gar nicht anwendungsbereit gemacht.

Die wirtschaftlich sinnvollere Gegenfrage für 2025 lautet deshalb: Wie bringe ich möglichst viel relevantes Wissen in eine Form, die für Entscheidungen, Compliance und Kundenerlebnisse zuverlässig nutzbar ist – ohne die Kosten explodieren zu lassen?

Genau hier setzt ein professionelles RAG‑System an. Es ist kein „schlaues Chatfenster“, sondern eine Wissenslogistik, die Inhalte in einheitliche, zitierfähige Evidenz verwandelt, in Echtzeit aktuell hält und deren Qualität permanent messbar bleibt.

Warum ein Standard-RAG nicht reicht

Die Forschung ist eindeutig: LLMs nutzen lange Kontexte nicht gleichmäßig gut. Relevante Informationen, die mittig in einem Prompt stehen, werden von Modellen häufiger übersehen, das bekannte Lost‑in‑the‑Middle‑Phänomen. Selbst mit großen Kontextfenstern bleibt dieser Positionsbias bestehen – er wird nicht durch „noch mehr Tokens“ gelöst, sondern durch Architekturentscheidungen, die wichtige Sätze prominent und kompakt in den Kontext bringen. Die wegweisende Arbeit von Liu et al. hat das erstmals systematisch vermessen und ist inzwischen breit repliziert.

Genauso wichtig: Viele Fehlantworten sind keine spontanen Halluzinationen des Modells, sondern Folge schwacher oder falsch priorisierter Evidenz im Retrieval. Dort ist der Hebel, an dem professionelle Systeme ansetzen. Anthropic weist mit Contextual Retrieval nach, dass sich fehlgeschlagene Abrufe nahezu halbieren lassen; in Kombination mit Reranking sinken Abruffehler um bis zu 67 Prozent. Das ist unmittelbarer Qualitäts‑ und Kosteneffekt, weil weniger falsche Kontexte in die Generierung gelangen.

Der Bauplan: vom Rohmaterial zur belegten Antwort

Ein belastbarer RAG‑Stack trennt Index‑Zeit (Wissensaufbereitung) von Query‑Zeit (Antworterzeugung). In der Index‑Zeit orchestriert Dagster den gesamten Fluss: Erkennen neuer oder geänderter Quellen über Sensors, wiederkehrende Läufe über Schedules, Asset‑Lineage, Partitionierung und Backfills für kontrollierte Aktualität. Damit wird der Index ereignisgetrieben und reproduzierbar aktualisiert, statt in manuellen Rebuild‑Zyklen zu altern.

Die Normalisierung beginnt bewusst vor dem Chunking: Docling wandelt PDFs, Office‑Daten, Scans und Bilder in Markdown um, rekonstruiert Tabellen, erhält Layout und Lesereihenfolge und schafft so eine robuste Textbasis, auf der Retrieval und Reranking präziser arbeiten können. Für Audio‑ und Videoquellen ergänzt eine Medienpipeline: Whisper transkribiert zuverlässig auch mehrsprachige Aufnahmen; ffmpeg extrahiert Screenshots mit Zeitstempel; ein Vision‑Language‑Modell erzeugt Bildbeschreibungen. Aus Transkript und erklärenden Screenshots entsteht ein vollständiges Markdown des Videos-einschließlich verlinkter Frames für späteres Zitieren.

… nach der Umwandlung wird’s spannend.

Fokus-Webinar: Personenbezogene Daten & KI – ie Pseudonymisierung hilft
Warum Pseudonymisierung? Unser Fokus-Webinar gibt Dir Einblicke.

Direkt nach der Umwandlung in Markdown greift Presidio: Personenbezogene Inhalte werden pseudonymisiert oder anonymisiert, bevor sie in Indizes landen. Die Open‑Source‑Bibliothek detektiert PII in Texten und Bildern-von Namen und Adressen über Ausweis‑ und Kreditkartennummern bis zu Telefonnummern-und erlaubt kontrollierte Maskierung oder Ersetzung gemäß Datenschutzvorgaben. Das schützt Betroffene, reduziert rechtliche Risiken und schafft einheitliche Regeln für den Umgang mit sensiblen Daten.

Erst danach folgt Contextual Chunking mit reichlich Metadaten (Titel, Abschnitt, Gültigkeit, Version), Embedding in einen Vektorindex und parallel die BM25‑Indizierung. Die Kombination beider Wege – Hybrid‑Retrieval – ist in Enterprise‑Stacks heute Standard und liefert Robustheit: Synonyme und Paraphrasen werden ebenso abgedeckt wie harte Begriffe, Produktcodes oder Paragrafen. Microsoft beschreibt diese Architektur mittlerweile explizit als RAG-Design-Pattern.

Damit wird die Query‑Zeit einfach: Zuerst kommt der Hybrid‑Abruf, dann ein Reranker als zweiter Blick, der die besten Belege nach oben sortiert, anschließend ein Quality‑Gate, das schwache Evidenz erkennt und definierte Fallbacks auslöst, und schließlich eine Kontext‑Kompression, die nur die wirklich relevanten Sätze mit korrekten Quellenangaben in die Generierung lässt. Ragas und DeepEval messen kontinuierlich, wie gut das System arbeitet-offline in CI/CD und online im Betrieb-über Faithfulness, Kontextpräzision und Antwortrelevanz hinaus. Einzelne Datensätze wie RAGTruth bleiben dabei nur ein kleiner Baustein in einer viel breiteren Bewertungslandschaft.

Für Fragen, die über Dokumentgrenzen hinweg laufen, ergänzt GraphRAG den Standardpfad. Es extrahiert Entitäten und Relationen, baut Community‑Hierarchien und nutzt Graph‑Summaries für den Abruf. Dadurch lassen sich Multihop‑Fragen („Wie hängt A über B und C mit D zusammen, seit wann und mit welchen Belegen?“) erklärbar beantworten. Microsoft stellt Prozess, Code und Dokumentation offen bereit; in der Praxis läuft GraphRAG zielgerichtet neben dem klassischen Top‑K‑Retrieval.

RAG Pipelines 2025

Kennst du noch die einfachen Extraction → Splitting → Embedding -Pipelines für RAG 2023?
Heute, da es um nachweisbaren Business-Benefit statt Vorstandspräsentation geht, sind die Pipelines komplexer. Hier sehen wir ein typisches Beispiel einer aktuellen Infrastruktur, wie wir sie etwa in Kundenprojekten umsetzen:

Darstellung einer RAG-Pipeline, wie wir sie auch für Kunden nutzen.

Von Rohdaten zu Wirtschaftsnutzen: Rollen, Wirkung, Risiken

Die folgende Tabelle verdichtet die geschäftliche Logik hinter jedem Baustein. Sie zeigt, warum das System mehr Wissen aufnehmen kann, ohne unbeherrschbar zu werden – und was geschieht, wenn ein Baustein fehlt.

KomponenteAufgabe im SystemBusiness-NutzenRisiko ohne diesen Baustein
Dagster
Orchestrierung
Ereignis‑ und zeitgesteuerte Index‑Zeit mit Sensors, Schedules, Partitionen, Lineage und BackfillsImmer aktuelle Indizes ohne manuelle Rebuilds, reproduzierbare Läufe, SLAs und AuditsicherheitVeraltete Inhalte, teure Ad‑hoc‑Jobs, fehlende Nachvollziehbarkeit von Änderungen
Docling
Markdown
Vereinheitlichung von PDFs, Office, Scans und Bildern zu strukturiertem Markdown inkl. Tabellenrekonstruktion und LayoutHöhere Trefferqualität im Retrieval, robustere Zitate, weniger OCR‑ArtefakteVerlust kritischer Details in Tabellen und Abbildungen, fragmentierte Kontexte
Whisper, ffmpeg, VLMTranskription von Audio, Screenshots mit Zeitstempel, Bildbeschreibungen; vollständiges Markdown für VideosErschließung des „A/V ‑ Blinden Flecks“, bessere Trainings‑ und SupportnutzungGesprächs‑ und Schulungswissen bleibt unsichtbar, fehlende Evidenzketten
Presidio
Pseudonymisierung
PII‑Erkennung und Anonymisierung direkt nach Markdown‑KonvertierungDatenschutz by Design, geringeres Rechtsrisiko, konsistente RegelnPersonenbezogene Daten landen im Index, erschwerte Compliance und Löschprozesse
Contextual / Semantic ChunkingSemantisches Schneiden mit Überschriften, Gültigkeit, Version als MetadatenBessere Abrufbarkeit und Prüfbarkeit, stabile BelegeZerrissene Evidenz, schwache Quellenbindung, höherer False‑Negative‑Anteil
Hybrid-Retrieval und RerankingVereint Vektor‑ und Schlagwortsuche, sortiert die besten Belege nach obenHoher Recall und hohe Präzision, weniger „nahe‑dran‑aber‑falsch“Relevantes bleibt unsichtbar, irreführende Treffer dominieren den Prompt
Quality Gate und KompressionKonfidenzprüfung mit Fallbacks, extraktive Reduktion und Neuordnung der SätzeSchutz vor schwacher Evidenz, geringere Tokenkosten, Milderung von Lost‑in‑the‑MiddlePlausible Fehlantworten in der Fläche, steigende Kosten bei sinkender Qualität
GraphRAG MultihopGraph aus Entitäten und Relationen, Community‑Summaries, Abruf entlang KantenErklärbares Multihop‑Retrieval über Dokumentgrenzen, bessere Sensemaking‑AntwortenVerpasste Zusammenhänge, lange Recherchepfade, schwache Herleitbarkeit
Ragas und DeepEvalKontinuierliche Offline‑ und Online‑Evaluation; Integration in CI und BetriebDauerhafte Qualitäts‑ und Kostenkontrolle, gezieltes Tuning statt BauchgefühlBlindflug, Qualitätsdrift, verspätete Regressionserkennung
Fokus-Webinar: Der #1-Killer für Dein KI-Projekt
Fokus-Webinar: Advanced Unstructured Data
Fokus-Webinar: Daten, aber schnell!
Fokus-Webinar: Vertrauenswürdige KI mit Observable RAG
Fokus-Webinar: LLMs als Wissensgedächtnis
Fokus-Webinar: Personenbezogene Daten & KI – ie Pseudonymisierung hilft

Wie die Angst vor Wissensverlust zur Investitionslogik wird

Wenn Wissen mit Menschen das Unternehmen verlässt, ist der Nettonutzen jeder Stunde, die heute in Erschließung und Anreicherung investiert wird, überproportional hoch. Denn E‑Mails, Chat‑Threads und Protokolle tragen Kontext, der in formalen Dokumenten fehlt: Entscheidungen, Ausnahmen, Kausalitäten.

In der skizzierten Pipeline werden diese Quellen gleichberechtigte Bürger: Docling und die Medienpipeline ziehen sie auf ein gemeinsames Format, Presidio entfernt oder ersetzt persönliche Bezüge, Dagster hält den Bestand kontinuierlich frisch, und die Query‑Zeit liefert belegte Antworten entlang dokumentierter Versionen. Statt zu entscheiden, auf welches Wissen man verzichten kann, entscheidet die Organisation, wie sie Wissen in Wert verwandelt – mit eingebauter Compliance.

Operativer Kern: drei Prinzipien für CIOs, CDOs, CTOs

1.

Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.

2.

Abruf als Qualitätsregler verstehen. Hybrid‑Retrieval plus Reranking, ergänzt durch Contextual Retrieval, räumt die größten Qualitätsprobleme im Produktionsbetrieb aus dem Weg, bevor das Modell einen Token generiert. Konfidenz‑Gates stoppen schwache Evidenz, Kompression setzt die wichtigen Sätze an den Anfang – damit entzieht man Lost‑in‑the‑Middle die Grundlage.Normalisieren, bevor man indiziert. Alles, was du vor dem Chunking in Ordnung bringst – Markdown‑Konvertierung, Tabellenerkennung, Bildbeschreibungen, Pseudonymisierung – reduziert die Fehlerquote danach exponentiell. Docling, Whisper und ffmpeg sind hier keine „Add‑ons“, sondern die Grundlage dafür, dass Retrieval und Reranker saubere Evidenz sehen.

3.

Messen ist Pflicht, nicht Kür. Ragas und DeepEval bringen Metriken für Faithfulness, Kontextpräzision, Antwortrelevanz, Halluzinationsneigung und vieles mehr; sie laufen im CI‑Zyklus und im Betrieb. Ein Datensatz wie RAGTruth bleibt dabei ein Teil, nicht das Ganze. Ohne diese Beobachtbarkeit laufen Kosten und Qualität auseinander.

Ein kurzer Realitätscheck entlang eines typischen Vorgangs

Ein Standortleiter fragt, welche Spesenregel für externe Berater in Deutschland seit Juli 2024 gilt.

Das System zieht simultan BM25‑ und Vektor‑Treffer, der Reranker priorisiert die Policy‑Seite in Version v2.1 vor einer älteren Mail. Das Qualitäts‑Gate erkennt starke Evidenz und lässt passieren; die Kompression extrahiert nur die drei relevanten Sätze, die Antwort nennt explizit Quelle, Abschnitt, Version und Datum. Wären A/V‑Mitschnitte einer Townhall entscheidend, lägen über die Medienpipeline bereits Transkript und Screenshots mit Bildbeschreibungen vor; enthaltene Namen wären zuvor von Presidio pseudonymisiert.

Fragt der Leiter anschließend, wie sich diese Regel zur globalen Reiserichtlinie verhält, springt GraphRAG an: Die Antwort verlinkt die Beziehung über Entitäten, Zeitstempel und Community‑Summaries – erklärbar und prüfbar.

Steuerung über Kennzahlen

Professionelle Teams führen das System wie eine Produktlinie-mit SLOs für Frische, Zuverlässigkeit und Kosten. Die folgende Tabelle schlägt praxistaugliche Startwerte vor, die Sie mit Ragas und DeepEval kontinuierlich überwachen.

KennzahlWarum sie zähltStartziel
Answer‑supported‑RateAnteil der Antworten mit korrekter, zitierter Quelle; unmittelbares Vertrauenssignal≥ 95 %
Context Precision und Context RecallWie gut treffen Retrieval und Kompression die relevanten Sätze; Frühwarnsystem für Index‑Drift≥ 0,75 Präzision, ≥ 0,85 Recall
Time‑to‑First‑TokenNutzererlebnis und Kostenindikator; Korrelation mit Kontextgröße< 2 s
Kosten pro AntwortDirekter ROI‑Hebel durch Kompression und RerankingMonatlich sinkend
Gate‑Hit‑RateZeigt Lücken in Inhalten, Indizes oder Sicherheitsschwellen5–15 % mit Trend abnehmend
Freshness SLOZeit bis neue Inhalte indexiert und evaluierbar sind< 1 h bei Events, < 24 h bei Batches

Fazit: Nicht verzichten, sondern verwandeln

Die Angst vor Wissensverlust ist berechtigt. Aber die Reaktion darf nicht „Aussortieren“ sein, sondern Verwandeln: Dagster orchestriert eine kontinuierliche Index‑Zeit, die Docling‑normiertes Markdown und Medienartefakte erzeugt, Presidio schützt Identitäten, Contextual Chunking und Hybrid‑Retrieval mit Reranking sichern Qualität, Qualitäts‑Gate und Kompression halten Kosten und Risiken im Zaum, GraphRAG erschließt Multihop‑Zusammenhänge, und Ragas plus DeepEval machen alles messbar.

So entsteht eine Plattform, die viel Wissen aufnehmen kann, ohne unbeherrschbar zu werden – eine Plattform, die Antworten nicht nur generiert, sondern begründet, kontrolliert und skaliert. Genau das ist 2025 der Unterschied zwischen RAG als Demo und RAG als Wettbewerbsvorteil.

Das ist dein Alltag?

Wenn wir nicht alle beantworten konnten, ist hier unser Angebot: Melde Dich unverbindlich bei uns und wir schauen uns gemeinsam an, ob und wie wir Dich unterstützen können.

Avatar von Johann-Peter Hartmann

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Für das Handling unseres Newsletters nutzen wir den Dienst HubSpot. Mehr Informationen, insbesondere auch zu Deinem Widerrufsrecht, kannst Du jederzeit unserer Datenschutzerklärung entnehmen.