Man kennt es. Jedes Mal, wenn man zum Beispiel bei seiner Bank anruft:
„Bitte nennen Sie uns Ihr Anliegen.“
„Das habe ich leider nicht verstanden.“
„Das habe ich leider nicht verstanden.“
„Der nächste freie Mitarbeiter…“
Frustration pur. Doch wie sind wir hier gelandet, und wo geht die Reise hin? Genau damit wollen wir uns heute etwas ausführlicher beschäftigen.
Kurze Unterbrechung – für die Zukunft der Kommunikation

Realtime VoiceAI
Mit unserer VoiceAI-Lösung und Avatar-Integration verbesserst du die Kundeninteraktion über alle Kanäle: Telefon, Chat oder E-Mail. Nutze Echtzeit-Sprachtechnologie und integriere sie nahtlos in deine Systeme, um Abläufe zu optimieren und die Kundenzufriedenheit zu steigern.
Die Entwicklung der Telefon-Hotline
Welle 1: Drücken Sie die 1 …
Seit es Tasten-Telefone gibt, gibt es Systeme, die auch während des Telefonats diese Tastendrücke verstehen, um den Anrufer möglichst schnell an den richtigen Ansprechpartner durchzustellen.
Über die Jahre wurde das System verbessert, um sich einem natürlicheren Gespräch anzunähern.
Erst werden nur einzelne Schlagwörter verstanden, später auch ganze Sätze und ähnliche Anfragen.
Aber das grundlegende System ist seit 1960 das Gleiche: „Wenn A, dann B”. Ich definiere eine feste Anzahl an Optionen, aus denen der Anrufer wählen kann, und der Anrufer landet am Ende hoffentlich bei dem korrekten Mitarbeiter für das Anliegen.
Alles, was nicht in mein Schema passt, kann nicht automatisch bearbeitet werden.
Und die Zahlen sprechen für sich: Bei solchen „traditionellen“ Systemen brechen mehr als 30 % der Anrufer ab, bevor sie eine Lösung für ihr Anliegen finden.
Auch wenn das System inzwischen fast alt genug ist, um Rentenansprüche zu haben, ist es noch immer das am weitesten verbreitete.
Welle 2: Der intelligente Assistent
Die Revolution beginnt 2020, als OpenAI GPT-3 veröffentlicht. Plötzlich kann ein Computer nicht mehr nur einzelne Wörter verstehen und ähnliche Sätze zuordnen, sondern auch komplett neue Sätze schreiben.
Zusammen mit anderen neuen Technologien entstehen Pipelines, die das Gesprochene in Text umwandeln, anschließend mit einem KI-Modell eine Text-Antwort erzeugen und diese Antwort wieder in Audio umwandeln.
Gerade wenn dem KI-Modell dann noch Zugriff auf Unternehmenssysteme gegeben wird und die KI selbstständig z. B. den Bestellstatus abrufen kann, lassen sich viele Anfragen komplett ohne menschliches Zutun bearbeiten.
Der Anrufer erhält seine Antwort schneller, ist zufriedener mit dem Service und das Unternehmen hat geringere Kosten.
Zumindest in der Theorie. Denn in der Praxis hat auch dieser Ansatz seine Schwachstellen – allen voran die Latenz.
Wenn der Anrufer seinen Satz beendet hat, würde ein Mensch normalerweise innerhalb von 300 ms antworten. KI-Systeme benötigen hingegen ca. 2 Sekunden.
Wenn sich die Stimme menschlich anhört, erwartet der Anrufer eine menschliche Antwortzeit. Und auch wenn sich 2 Sekunden nicht nach viel Zeit anhören, ist der Zeitraum für ein flüssiges Gespräch einfach zu groß.
Tatsächlich fragen viele Anrufer schon nach weniger als 2 Sekunden: „Sind Sie noch da?“ Diese Unterbrechung lässt die Pipeline erneut laufen, wieder mit hoher Latenz, und das Gespräch zerbricht komplett.
Welle 3: Das Ende des Roboter-Gefühls
Seit Ende 2024 gibt es eine neue Revolution: VoiceAI. KI-Modelle, die nativ Audio verstehen und erzeugen können. Und das mit einer Latenz, die nicht nur „gut genug“ ist, sondern besser als die menschliche.
Diese Modelle haben noch mehr Vorteile als die Latenz: Sie verstehen nicht nur die Worte, sondern auch, wie sie gesagt wurden. Die KI versteht also, ob der Anrufer sich gerade frustriert oder dankbar anhört, und reagiert entsprechend.
Diese Modelle verstehen auch den Unterschied zwischen dem, was der Anrufer gerade sagt, und z. B. der Bahnhofsdurchsage im Hintergrund. Und die KI kann selbstständig nachfragen, wenn ein Wort undeutlich oder missverständlich war. Zum Beispiel der Name Miller/Müller.
Im Pipeline-Ansatz wird das Gesagte in Text umgewandelt. Bei diesem Schritt besteht Unsicherheit, aber es gibt keine Intelligenz. Es wird also z. B. Miller transkribiert. Die KI arbeitet nur auf Text und vertraut ihm zu 100 % – sie weiß also gar nicht, dass da Unsicherheit bestand.
Im neuen System kann die KI einfach nachfragen: „War das Müller mit Ü oder mit I?“
Mit diesen modernen Systemen lassen sich Anruferanliegen von der KI lösen. Ohne Wartezeiten. Mit persönlicher Betreuung. Ohne dass der Anrufer mitbekommt, dass er mit einem Computer spricht.
Und sollte die KI doch mal überfordert sein, kann sie selbstständig entscheiden, das Gespräch an einen menschlichen Mitarbeiter zu übergeben. Das ist nicht nur heute schon möglich, sondern auch das, was Menschen erwarten.
In einer Zeit, in der ChatGPT schon längst Alltag ist, wirken herkömmliche Telefonanlagen wie das, was sie sind: Technologie aus dem letzten Jahrhundert.
Neugierig?
Entdecke VoiceAI
Technischer Exkurs
Hinter den Kulissen unserer Enterprise-VoiceAI-Lösung
Produktive Voice‑Anwendungen benötigen Tool‑Aufrufe (CRM, Zahlung, Wissensdatenbanken). Moderne LLM‑Stacks modellieren das als strukturierte Funktionsaufrufe. Ohne Orchestrator‑Layer drohen Inkonsistenzen bei Unterbrechungen oder asynchronen Ergebnissen. Als Best‑Practice hat sich ein Agent/Orchestrator etabliert.
Agentische Orchestrierung über einen MCP‑Layer heißt hier: nicht bloß punktuelle API‑Requests an CRM/ERP, sondern ein kontextsensitiver Vermittler, der Unternehmens‑Tools als „Functions/Tools“ für das Voice‑Agent‑System verfügbar macht. Der MCP‑Kontextlayer hält Kunden‑ und Gesprächs‑State, koordiniert Tool‑Aufrufe, steuert Nebenläufigkeit und Fehlerfälle und macht alle Aktionen auditierbar. Das verhindert das typische Hin‑und‑her von einfachen REST‑Calls, reduziert Inkonsistenzen bei parallelen Tasks und ermöglicht, dass die KI kontextsicher und prozessgerecht handelt, statt auf starre WYSIWYG‑Workflows angewiesen zu sein.
Für den Betrieb bedeutet das: Du bekommst eine Orchestrierung, die zugleich autonom Entscheidungen anstoßen und menschliches Eingreifen nahtlos ermöglichen kann (Supervisor‑Flow, Live‑Transkripte, Eingriff per Klick).
Praktisch heißt das: Discovery → POC → Integration (CRM/ERP/Telefonie via MCP & APIs) → Training & Rollout — also ein integrativer Pfad, bei dem Datensouveränität, Audit Trails und Prozesslogik von Anfang an verankert sind.
Neugierig?
Sie dir an, was VoiceAI bietet
VoiceAI … und dann?
Die Entwicklung geht noch weiter: Wenn wir Kunden-Interaktionen von Grund auf mit KI denken, gibt es noch viele andere Möglichkeiten:
Wenn erst einmal eine Basis für ein KI-System existiert, können beliebige Kommunikationskanäle daran angeschlossen werden. Man kann dem Nutzer also freistellen, ob er anruft, den Chatbot auf der Webseite nutzt, über die Website im Browser anruft, eine E-Mail oder eine SMS oder auf WhatsApp schreibt … Und man hat auf allen Kanälen dieselbe Kompetenz und dieselben Möglichkeiten, mit minimalem Mehraufwand pro Kanal.
Aktuell sind auch Bild und Video als weitere Medien für KI im Kommen. Nutzer könnten z. B. einen Videoanruf mit einem realistisch animierten Avatar führen. Das kann ein beliebiger fiktionaler, animierter Charakter sein, oder wie ein menschlicher Mitarbeiter aussehen.
Die KI kann dabei nicht nur die Stimme verstehen, sondern auch verarbeiten, was im Kamerabild zu sehen ist, und so z. B. direkt den Fehlercode der Waschmaschine selbst lesen und Hilfe anbieten.
Was bedeutet das für Unternehmen?
Die Vorteile liegen auf der Hand: VoiceAI ist 24/7 verfügbar, spricht jede Sprache perfekt, senkt die Kosten und steigert die Kundenzufriedenheit. Die Frage ist nicht mehr, ob KI im Kunden-Support zum Einsatz kommt, sondern wann.
Die gute Nachricht: Es muss kein abrupter Systemwechsel sein. Oft lässt sich KI schrittweise in bestehende Systeme integrieren. Wir unterstützen Unternehmen dabei, ihre Kundenkommunikation Schritt für Schritt zu modernisieren – von der Analyse bestehender Prozesse bis zur Implementierung der passenden Lösung.
In welcher Welle befindet sich deine Telefonie heute? Lass uns darüber sprechen, wie VoiceAI auch in deinem Unternehmen funktionieren kann.



Schreibe einen Kommentar