VoiceAI – die Zukunft der Telefon-Hotlines

Blog » AI » VoiceAI – von Tasten zu KI

VoiceAI – von Tasten zu KI

Über die Entwicklung (und Zukunft) der Telefon-Hotline

Avatar von Finn Melzer

Man kennt es. Jedes Mal, wenn man zum Beispiel bei seiner Bank anruft: 

„Bitte nennen Sie uns Ihr Anliegen.“
„Das habe ich leider nicht verstanden.“
„Das habe ich leider nicht verstanden.“
„Der nächste freie Mitarbeiter…“

Frustration pur. Doch wie sind wir hier gelandet, und wo geht die Reise hin? Genau damit wollen wir uns heute etwas ausführlicher beschäftigen.

Realtime VoiceAI

Mit unserer VoiceAI-Lösung und Avatar-Integration verbesserst du die Kundeninteraktion über alle Kanäle: Telefon, Chat oder E-Mail. Nutze Echtzeit-Sprachtechnologie und integriere sie nahtlos in deine Systeme, um Abläufe zu optimieren und die Kundenzufriedenheit zu steigern.

Die Entwicklung der Telefon-Hotline

Welle 1: Drücken Sie die 1 …

Seit es Tasten-Telefone gibt, gibt es Systeme, die auch während des Telefonats diese Tastendrücke verstehen, um den Anrufer möglichst schnell an den richtigen Ansprechpartner durchzustellen. 

Über die Jahre wurde das System verbessert, um sich einem natürlicheren Gespräch anzunähern.
Erst werden nur einzelne Schlagwörter verstanden, später auch ganze Sätze und ähnliche Anfragen. 

Aber das grundlegende System ist seit 1960 das Gleiche: „Wenn A, dann B”. Ich definiere eine feste Anzahl an Optionen, aus denen der Anrufer wählen kann, und der Anrufer landet am Ende hoffentlich bei dem korrekten Mitarbeiter für das Anliegen. 

Alles, was nicht in mein Schema passt, kann nicht automatisch bearbeitet werden.

Und die Zahlen sprechen für sich: Bei solchen „traditionellen“ Systemen brechen mehr als 30 % der Anrufer ab, bevor sie eine Lösung für ihr Anliegen finden. 

Auch wenn das System inzwischen fast alt genug ist, um Rentenansprüche zu haben, ist es noch immer das am weitesten verbreitete. 

Welle 2: Der intelligente Assistent

Die Revolution beginnt 2020, als OpenAI GPT-3 veröffentlicht. Plötzlich kann ein Computer nicht mehr nur einzelne Wörter verstehen und ähnliche Sätze zuordnen, sondern auch komplett neue Sätze schreiben. 

Zusammen mit anderen neuen Technologien entstehen Pipelines, die das Gesprochene in Text umwandeln, anschließend mit einem KI-Modell eine Text-Antwort erzeugen und diese Antwort wieder in Audio umwandeln. 

Gerade wenn dem KI-Modell dann noch Zugriff auf Unternehmenssysteme gegeben wird und die KI selbstständig z. B. den Bestellstatus abrufen kann, lassen sich viele Anfragen komplett ohne menschliches Zutun bearbeiten. 

Der Anrufer erhält seine Antwort schneller, ist zufriedener mit dem Service und das Unternehmen hat geringere Kosten.

Zumindest in der Theorie. Denn in der Praxis hat auch dieser Ansatz seine Schwachstellen – allen voran die Latenz. 

Wenn der Anrufer seinen Satz beendet hat, würde ein Mensch normalerweise innerhalb von 300 ms antworten. KI-Systeme benötigen hingegen ca. 2 Sekunden. 

Wenn sich die Stimme menschlich anhört, erwartet der Anrufer eine menschliche Antwortzeit. Und auch wenn sich 2 Sekunden nicht nach viel Zeit anhören, ist der Zeitraum für ein flüssiges Gespräch einfach zu groß.

Tatsächlich fragen viele Anrufer schon nach weniger als 2 Sekunden: „Sind Sie noch da?“ Diese Unterbrechung lässt die Pipeline erneut laufen, wieder mit hoher Latenz, und das Gespräch zerbricht komplett.

Latenz, Turn‑Taking und Wahrnehmung

Im menschlichen Gespräch ist fein abgestimmtes Turn‑Taking essenziell. Sind Verzögerungen deutlich wahrnehmbar, also länger als die bereits angesprochenen 200 Millisekunden, interpretiert die Gegenpartei das oft als Missverständnis oder Desinteresse. 

Zum Thema Timing beim Gesprächswechsel gibt es robuste Forschung. Deshalb ist die Balance zwischen Antwortqualität und Reaktionszeit eine zentrale Entscheidung bei der Auswahl von Modellen und Architekturen.

Welle 3: Das Ende des Roboter-Gefühls 

Seit Ende 2024 gibt es eine neue Revolution: VoiceAI. KI-Modelle, die nativ Audio verstehen und erzeugen können. Und das mit einer Latenz, die nicht nur „gut genug“ ist, sondern besser als die menschliche. 

Diese Modelle haben noch mehr Vorteile als die Latenz: Sie verstehen nicht nur die Worte, sondern auch, wie sie gesagt wurden. Die KI versteht also, ob der Anrufer sich gerade frustriert oder dankbar anhört, und reagiert entsprechend.

Diese Modelle verstehen auch den Unterschied zwischen dem, was der Anrufer gerade sagt, und z. B. der Bahnhofsdurchsage im Hintergrund. Und die KI kann selbstständig nachfragen, wenn ein Wort undeutlich oder missverständlich war. Zum Beispiel der Name Miller/Müller.

Im Pipeline-Ansatz wird das Gesagte in Text umgewandelt. Bei diesem Schritt besteht Unsicherheit, aber es gibt keine Intelligenz. Es wird also z. B. Miller transkribiert. Die KI arbeitet nur auf Text und vertraut ihm zu 100 % – sie weiß also gar nicht, dass da Unsicherheit bestand.
Im neuen System kann die KI einfach nachfragen: „War das Müller mit Ü oder mit I?“ 

Was Voice‑zu‑Voice anders macht

Realtime‑Voice‑Modelle nehmen Audio direkt als Input und generieren die Antwort ohne zwingenden Text‑Zwischenschritt. Das reduziert Roundtrips und bewahrt prosodische Signale wie Intonation, Pausen und Lautstärke, die für Emotionen und die Steuerung des Gesprächs zentral sind. Themen, die in unserer VoiceAI-Lösung gelöst sind.

Die bisherige Kette TTS → LLM → TTS funktioniert, aber jede zusätzliche Komponente, einschließlich der Endpunkterkennung, erhöht die Verzögerung. Die Probleme, die sich dahinter verstecken, habe ich bereits weiter oben angesprochen.

Mit diesen modernen Systemen lassen sich Anruferanliegen von der KI lösen. Ohne Wartezeiten. Mit persönlicher Betreuung. Ohne dass der Anrufer mitbekommt, dass er mit einem Computer spricht.

Und sollte die KI doch mal überfordert sein, kann sie selbstständig entscheiden, das Gespräch an einen menschlichen Mitarbeiter zu übergeben. Das ist nicht nur heute schon möglich, sondern auch das, was Menschen erwarten.

In einer Zeit, in der ChatGPT schon längst Alltag ist, wirken herkömmliche Telefonanlagen wie das, was sie sind: Technologie aus dem letzten Jahrhundert. 

Technischer Exkurs

Hinter den Kulissen unserer Enterprise-VoiceAI-Lösung

Produktive Voice‑Anwendungen benötigen Tool‑Aufrufe (CRM, Zahlung, Wissensdatenbanken). Moderne LLM‑Stacks modellieren das als strukturierte Funktionsaufrufe. Ohne Orchestrator‑Layer drohen Inkonsistenzen bei Unterbrechungen oder asynchronen Ergebnissen. Als Best‑Practice hat sich ein Agent/Orchestrator etabliert.

Agentische Orchestrierung über einen MCP‑Layer heißt hier: nicht bloß punktuelle API‑Requests an CRM/ERP, sondern ein kontextsensitiver Vermittler, der Unternehmens‑Tools als „Functions/Tools“ für das Voice‑Agent‑System verfügbar macht. Der MCP‑Kontextlayer hält Kunden‑ und Gesprächs‑State, koordiniert Tool‑Aufrufe, steuert Nebenläufigkeit und Fehlerfälle und macht alle Aktionen auditierbar. Das verhindert das typische Hin‑und‑her von einfachen REST‑Calls, reduziert Inkonsistenzen bei parallelen Tasks und ermöglicht, dass die KI kontextsicher und prozessgerecht handelt, statt auf starre WYSIWYG‑Workflows angewiesen zu sein.

Für den Betrieb bedeutet das: Du bekommst eine Orchestrierung, die zugleich autonom Entscheidungen anstoßen und menschliches Eingreifen nahtlos ermöglichen kann (Supervisor‑Flow, Live‑Transkripte, Eingriff per Klick). 

Praktisch heißt das: Discovery → POC → Integration (CRM/ERP/Telefonie via MCP & APIs) → Training & Rollout — also ein integrativer Pfad, bei dem Datensouveränität, Audit Trails und Prozesslogik von Anfang an verankert sind.

VoiceAI … und dann? 

Die Entwicklung geht noch weiter: Wenn wir Kunden-Interaktionen von Grund auf mit KI denken, gibt es noch viele andere Möglichkeiten: 

Wenn erst einmal eine Basis für ein KI-System existiert, können beliebige Kommunikationskanäle daran angeschlossen werden. Man kann dem Nutzer also freistellen, ob er anruft, den Chatbot auf der Webseite nutzt, über die Website im Browser anruft, eine E-Mail oder eine SMS oder auf WhatsApp schreibt … Und man hat auf allen Kanälen dieselbe Kompetenz und dieselben Möglichkeiten, mit minimalem Mehraufwand pro Kanal.

Aktuell sind auch Bild und Video als weitere Medien für KI im Kommen. Nutzer könnten z. B. einen Videoanruf mit einem realistisch animierten Avatar führen. Das kann ein beliebiger fiktionaler, animierter Charakter sein, oder wie ein menschlicher Mitarbeiter aussehen.

Die KI kann dabei nicht nur die Stimme verstehen, sondern auch verarbeiten, was im Kamerabild zu sehen ist, und so z. B. direkt den Fehlercode der Waschmaschine selbst lesen und Hilfe anbieten. 

Was bedeutet das für Unternehmen?

Die Vorteile liegen auf der Hand: VoiceAI ist 24/7 verfügbar, spricht jede Sprache perfekt, senkt die Kosten und steigert die Kundenzufriedenheit. Die Frage ist nicht mehr, ob KI im Kunden-Support zum Einsatz kommt, sondern wann.

Die gute Nachricht: Es muss kein abrupter Systemwechsel sein. Oft lässt sich KI schrittweise in bestehende Systeme integrieren. Wir unterstützen Unternehmen dabei, ihre Kundenkommunikation Schritt für Schritt zu modernisieren – von der Analyse bestehender Prozesse bis zur Implementierung der passenden Lösung.

In welcher Welle befindet sich deine Telefonie heute? Lass uns darüber sprechen, wie VoiceAI auch in deinem Unternehmen funktionieren kann.

Fokus-Webinar: Der #1-Killer für Dein KI-Projekt
Fokus-Webinar: Advanced Unstructured Data
Fokus-Webinar: Daten, aber schnell!
Fokus-Webinar: Vertrauenswürdige KI mit Observable RAG
Fokus-Webinar: LLMs als Wissensgedächtnis
Fokus-Webinar: Personenbezogene Daten & KI – ie Pseudonymisierung hilft

Das ist dein Alltag?

Wenn wir nicht alle beantworten konnten, ist hier unser Angebot: Melde Dich unverbindlich bei uns und wir schauen uns gemeinsam an, ob und wie wir Dich unterstützen können.

Avatar von Finn Melzer

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Für das Handling unseres Newsletters nutzen wir den Dienst HubSpot. Mehr Informationen, insbesondere auch zu Deinem Widerrufsrecht, kannst Du jederzeit unserer Datenschutzerklärung entnehmen.

Erlebe VoiceAI

Melde dich jetzt für deinen exklusiven Demo-Termin der Mayflower VoiceAI an und überzeuge dich von dem Basissetup.

Stelle uns in diesem Termin deine Herausforderung vor und wir finden gemeinsam heraus, wie VoiceAI in deinem Szenario zum tragen kommt.