
36 Minuten Agent Voice Calling – Wenn Deine KI plötzlich mit Dir spricht |
Weitere Folgen





4 Minuten Automatische KI Zusammenfassung Die Ausgangslage kennen alle: Drücken Sie die 1. Danke, dass Sie gewartet haben. Sie sind auf Platz 4. Hintergrundmusik. Noch mal Platz 4. Die klassische Telefonanlage war kein Erlebnis, sondern eine Geduldsprobe. Das hat sich verändert – aber nicht so schnell, wie es die Technik eigentlich hergäbe. Christopher erklärt, warum Voice im Unternehmenskontext bisher noch stiefmütterlich behandelt wird: Qualitätslücken, Latenzprobleme, zu kleines Kontextfenster, kein Function Calling. GPT-4o Realtime löste das erste Problem – natürlichere Stimme, Pausen, Unterbrechbarkeit. GPT-4o Realtime 2 löst jetzt das entscheidende zweite: Function Calling. Das bedeutet, ein Voice-Agent kann nicht nur antworten, sondern handeln – Termine buchen, an einen anderen Agenten weitervermitteln, einen echten Menschen hinzuziehen. Im Gespräch landen direkt konkrete Praxisbeispiele: Der Wildpark Daun hat einen Voice-Agenten als Lemur-Charakter auf seiner Website – live angerufen und getestet. Das Schlosshotel Ahaus wickelt Reservierungen darüber ab. Das Aquahaus Ahaus plant eine zentrale Anlaufstelle, die per Cascading zu verschiedenen Agenten und im Notfall zu einem echten Menschen durchstellt. Eine Schule hat Voice KI als Live-Dolmetscher eingesetzt, um Elterngespräche über Sprachbarrieren hinweg zu ermöglichen. Der technische Vergleich zwischen Eleven Labs – Speech to Text, dann ein normales Modell, dann Text to Speech – und dem nativen GPT-4o-Realtime-Ansatz macht deutlich, warum beide Wege ihre Berechtigung haben. Eleven Labs bringt ein volles Kontextfenster und Function Calling out of the box, weil ein klassisches Modell dahinter sitzt. GPT-4o Realtime ist integrierter, klingt natürlicher – hat aber bisher an Limits gestoßen, die mit Version 2 jetzt deutlich weiter gesteckt werden. Der Live-Test mit dem SideKick™-eigenen Steve-Agenten zeigt im Vergleich, wie groß der Unterschied in Natürlichkeit und Tonlage schon jetzt ist. Und was noch kommt: Voice als Küchen-Assistent für Hygienevorschriften, als Dolmetscher, als erster Kontaktpunkt überall dort, wo viele Menschen anrufen und schnelle, klare Antworten brauchen. |
1 Minute Gastsprecher Markus Hartmann |
1 Minute Fazit der Podcastfolge |
Jetzt sind Sie gefragt!
