36 Minuten

Agent Voice Calling – Wenn Deine KI plötzlich mit Dir spricht

Was passiert, wenn Du einen KI-Agenten einfach anrufst statt zu chatten– und mit Deiner KI wie mit einem Menschen sprechen kannst? Wir geben einen Einblick, wie sprechende Agenten Teams entlasten, Kundengespräche menschlicher machen und Voice zum neuen Standard‑Interface für Websites und Services entwickeln könnten.

Weitere Folgen

Spotify Podcast - Ki verstehen ohne Tech-Bubble
Spotify Podcast - Agentic Voice Calling
Spotify Podcast - Full Self-Answering: Wenn KI-Agenten eigenständig handeln
Spotify Podcast - How to: Autonomen KI-Agenten bauen

 4 Minuten

Automatische KI Zusammenfassung
durch SideKick

GPT-4o Realtime 2 ist da – und Marvin Liedmeyer nimmt das zum Anlass, endlich über ein Thema zu sprechen, das seit Langem auf seiner Liste stand: Voice KI. Mit dabei ist Christopher Borg, der bei Tobit Software täglich mit Kunden arbeitet, die SideKick™ einsetzen – von Städten über Schulen bis zu Unternehmen jeder Größe.

Die Ausgangslage kennen alle: Drücken Sie die 1. Danke, dass Sie gewartet haben. Sie sind auf Platz 4. Hintergrundmusik. Noch mal Platz 4. Die klassische Telefonanlage war kein Erlebnis, sondern eine Geduldsprobe. Das hat sich verändert – aber nicht so schnell, wie es die Technik eigentlich hergäbe.

Christopher erklärt, warum Voice im Unternehmenskontext bisher noch stiefmütterlich behandelt wird: Qualitätslücken, Latenzprobleme, zu kleines Kontextfenster, kein Function Calling. GPT-4o Realtime löste das erste Problem – natürlichere Stimme, Pausen, Unterbrechbarkeit. GPT-4o Realtime 2 löst jetzt das entscheidende zweite: Function Calling. Das bedeutet, ein Voice-Agent kann nicht nur antworten, sondern handeln – Termine buchen, an einen anderen Agenten weitervermitteln, einen echten Menschen hinzuziehen.

Im Gespräch landen direkt konkrete Praxisbeispiele: Der Wildpark Daun hat einen Voice-Agenten als Lemur-Charakter auf seiner Website – live angerufen und getestet. Das Schlosshotel Ahaus wickelt Reservierungen darüber ab. Das Aquahaus Ahaus plant eine zentrale Anlaufstelle, die per Cascading zu verschiedenen Agenten und im Notfall zu einem echten Menschen durchstellt. Eine Schule hat Voice KI als Live-Dolmetscher eingesetzt, um Elterngespräche über Sprachbarrieren hinweg zu ermöglichen.

Der technische Vergleich zwischen Eleven Labs – Speech to Text, dann ein normales Modell, dann Text to Speech – und dem nativen GPT-4o-Realtime-Ansatz macht deutlich, warum beide Wege ihre Berechtigung haben. Eleven Labs bringt ein volles Kontextfenster und Function Calling out of the box, weil ein klassisches Modell dahinter sitzt. GPT-4o Realtime ist integrierter, klingt natürlicher – hat aber bisher an Limits gestoßen, die mit Version 2 jetzt deutlich weiter gesteckt werden.

Der Live-Test mit dem SideKick™-eigenen Steve-Agenten zeigt im Vergleich, wie groß der Unterschied in Natürlichkeit und Tonlage schon jetzt ist. Und was noch kommt: Voice als Küchen-Assistent für Hygienevorschriften, als Dolmetscher, als erster Kontaktpunkt überall dort, wo viele Menschen anrufen und schnelle, klare Antworten brauchen.

 1 Minute

Gastsprecher Markus Hartmann

Christopher Borg arbeitet bei Tobit Software im Bereich Customer Success und ist die Person im Unternehmen, die am nächsten an den Kunden dran ist, die SideKick™ täglich einsetzen. Ob Gemeinden, Schulen, Hotels oder Mittelständler – er weiß, was in der Praxis funktioniert, wo es noch hakt und welche Use Cases echten Mehrwert bringen. Im Podcast bringt er genau diese Bodenhaftung mit: keine Übertreibungen, aber auch kein Kleinreden. Und einen Live-Dolmetschtest, der nicht hätte stattfinden sollen und trotzdem funktioniert hat.

 1 Minute

Fazit der Podcastfolge

Voice KI war lange das unterschätzte Thema neben Chatbots und Agenten. Das ändert sich gerade. Mit GPT-4o Realtime 2, nativem Function Calling und einem viermal größeren Kontextfenster werden Use Cases möglich, die bisher nur über aufwendige Umwege funktionierten. SideKick.ki integriert beide Welten – natives Realtime-Voice und die Eleven-Labs-Variante – und gibt Unternehmen damit die Wahl, welcher Ansatz für ihren konkreten Anwendungsfall besser passt. Wer jetzt noch wartet, wartet zu lang.

Jetzt sind Sie gefragt!

Der SideKick Podcast mit
Ludwig Groten und Marvin Liedmeyer

Wir sprechen über die großen Fragen unserer Zeit: Was kann Künstliche Intelligenz wirklich? Was bedeutet sie für Arbeit, Gesellschaft und unser Leben? Und wie hilft unser SideKick, Ordnung in das Chaos der KI-Welt zu bringen?

LinkedIn Ludwig        LinkedIn Marvin

SideKick Albumcover des Podcast auf Spotify: Der KI-Videopodcast von Tobit.Software