Cartesia Sonic 2: Das TTS-Modell fuer natuerliche KI-Telefonstimmen

Cartesia Sonic 2 liefert Text-to-Speech mit 90ms Latenz, 15 Sprachen und Voice Cloning. Warum das fuer KI-Telefonassistenten wichtig ist.

David Schemm David Schemm

Wenn du in den letzten Jahren mit einem KI-Telefonassistenten gesprochen hast, kennst du das Gefühl. Die Stimme klingt irgendwie okay, aber eben nicht richtig. Die Pausen sind zu lang. Die Betonung wirkt mechanisch. Nach drei Sätzen merkst du, dass du mit einer Maschine redest, und dein Vertrauen sinkt.

Im März 2025 hat sich das geändert. Cartesia, ein Unternehmen aus San Francisco, veröffentlichte Sonic 2 und sammelte gleichzeitig 64 Millionen Dollar in einer Series-A-Runde ein. Das Modell ist ein Text-to-Speech-System, das geschriebenen Text in gesprochene Sprache umwandelt. Aber die Art, wie es das tut, hat die Spielregeln für KI-Telefonate verschoben.

Cartesia Sonic 2: Warum dieses Modell anders ist

Die meisten TTS-Anbieter, darunter ElevenLabs, OpenAI und Play.HT, setzen auf Transformer-Architekturen. Das ist dieselbe Modellfamilie, die hinter GPT und ähnlichen Sprachmodellen steckt. Transformer verarbeiten Sequenzen, indem sie jedes Element mit allen vorherigen Elementen vergleichen. Das funktioniert gut für Text, wird bei Audio aber teuer, weil die Rechenkosten quadratisch mit der Sequenzlänge wachsen.

Cartesia hat sich für State Space Models (SSMs) entschieden. Diese Architektur verarbeitet sequentielle Daten anders. Statt die gesamte bisherige Sequenz zu betrachten, wird ein komprimierter Zustand geführt, der bei jedem neuen Datenpunkt aktualisiert wird. Das Ergebnis: schnellere Audiogenerierung mit weniger Rechenaufwand.

Sonic 2 erreicht eine Modell-Latenz von 90 Millisekunden. Die Turbo-Variante liegt bei 40ms. In Blindtests wurde Sonic 2 mit einem Faktor von 1,5x gegenüber dem nächstbesten Anbieter bevorzugt. Die Stimmqualität ist hörbar besser als bei den meisten Wettbewerbern. Betonung, Rhythmus und Pausengestaltung klingen natürlich.

Wenn du einen umfassenden Vergleich verschiedener TTS-Anbieter suchst, schau dir unseren Vergleichsleitfaden an.

Warum 90 Millisekunden den Unterschied machen

Bei einem Telefonat zählt jede Millisekunde Stille. Studien zur Gesprächsdynamik zeigen, dass Pausen ab etwa 200 Millisekunden als unnatürlich empfunden werden. Menschen reagieren empfindlich auf Verzögerungen, besonders am Telefon, wo es keine visuellen Hinweise gibt, die eine Pause erklären könnten.

Herkömmliche TTS-Systeme liegen bei 200 bis 500 Millisekunden Latenz. Das ist die Zeit vom Empfang des Textes bis zur Erzeugung der ersten Audiobytes. Wenn du die Spracherkennung und die LLM-Verarbeitung dazurechnest, ergibt sich eine Gesamtverzögerung von 800ms bis über einer Sekunde. Bei solchen Pausen fangen Anrufer an, sich zu wiederholen, über die KI zu reden oder aufzulegen.

Mit 90ms Modell-Latenz verschwindet die TTS-Stufe praktisch aus dem Latenzbudget. Der Anrufer hört eine Antwort, bevor die Pause unangenehm wird. Bei 40ms (Sonic Turbo) ist die Verzögerung kaum noch messbar im Gesamtkontext eines Telefonats.

Das ist kein theoretischer Vorteil. Es ist der Unterschied zwischen einem Gespräch, das fließt, und einem, bei dem der Anrufer spürt, dass etwas nicht stimmt. Für eine technische Erklärung, wie TTS in die gesamte Sprachpipeline passt, lies unseren Einblick in Safinas TTS-Ansatz.

Voice Cloning und 15 Sprachen

Sonic 2 startete mit Unterstützung für 15 Sprachen: Englisch, Französisch, Deutsch, Spanisch, Portugiesisch, Chinesisch, Japanisch, Hindi, Italienisch, Koreanisch, Niederländisch, Polnisch, Russisch, Schwedisch und Türkisch. Für den deutschsprachigen Markt ist das besonders relevant, weil viele Unternehmen regelmäßig Anrufe in mehreren Sprachen erhalten.

Ein Handwerksbetrieb in Stuttgart bekommt Anfragen auf Deutsch und Türkisch. Eine Beratungsfirma in Zürich wechselt zwischen Deutsch, Französisch und Englisch. Ein Hotel in Wien bedient Gäste aus ganz Europa. Bisher bedeutete Mehrsprachigkeit für KI-Systeme entweder schlechte Qualität in den Nebensprachen oder separate Systeme für jede Sprache.

Das Voice Cloning von Sonic 2 braucht nur 3 Sekunden Audiomaterial. Du nimmst eine kurze Sprachprobe auf, und das Modell kann diese Stimme in allen 15 Sprachen verwenden. Für Unternehmen heißt das: eine konsistente Markenstimme über alle Märkte hinweg, ohne für jede Sprache eigene Sprecher buchen zu müssen.

Wir haben separat über Mehrsprachigkeit bei KI-Telefonassistenten geschrieben und einen Überblick über KI-Sprachagenten in 2026 zusammengestellt.

Was das für KI-Telefonassistenten bedeutet

Am Telefon gibt es keinen Bildschirm. Keine visuelle Oberfläche, keine Ladeanimation, kein Chat-Fenster. Die Stimme ist das gesamte Produkt. Wenn diese Stimme flach klingt oder zu langsam reagiert, verlieren Anrufer in Sekunden das Vertrauen. Wenn sie natürlich klingt und schnell antwortet, nehmen sie das Gespräch ernst.

Die Psychologie hinter KI-Stimmen zeigt, dass Anrufer innerhalb der ersten Sekunden ein Urteil fällen. Eine Stimme, die menschlich klingt, hält Anrufer im Gespräch. Eine, die nach Maschine klingt, gibt ihnen einen Grund aufzulegen.

Stimmqualität beeinflusst auch direkt die Gesprächsergebnisse. Wenn ein Anrufer den KI-Assistenten als glaubwürdig wahrnimmt, gibt er eher die gewünschten Informationen preis, etwa seinen Namen, sein Anliegen oder seine Rückrufnummer. Klingt die Stimme dagegen nach einer billigen Automatisierung, versuchen viele Anrufer sofort, einen Menschen zu erreichen, oder legen direkt auf. Bei Unternehmen, die täglich Dutzende Anrufe erhalten, summiert sich das schnell.

Niedrige Latenz macht den Gesprächsfluss natürlich. Gute Prosodie sorgt dafür, dass die KI klingt, als würde sie verstehen, was sie sagt, nicht als lese sie Wörter von einer Liste ab. Voice Cloning ermöglicht es einem Unternehmen, seinen vertrauten Markenton beizubehalten, den Kunden wiedererkennen.

Produkte wie Safina nutzen TTS als letzte Stufe in einer Pipeline aus Spracherkennung, Sprachmodell-Verarbeitung und Audiogenerierung. Jede Stufe addiert Latenz. Wenn das TTS-Modell seinen Teil in unter 100 Millisekunden erledigt, bleibt die Gesamtantwortzeit in einem Bereich, der sich wie ein echtes Gespräch anfühlt.

Cartesia Sonic 2 hat den Standard verschoben. 90ms Latenz, 15 Sprachen, Voice Cloning aus 3 Sekunden Audio, ein Preis von 46,70 Dollar pro Million Zeichen. Für alle, die Sprach-KI-Produkte für echte Telefonate bauen, hat dieses Modell die Messlatte höher gelegt.

Quellen

9:41

Safina führte diese Woche 51 Telefonate

46

Vertrauensvoll

4

Verdächtig

1

Gefährlich

Letzte 7 Tage
Filter
EM
Emma Martin 67s 15:30

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

LS
Laura Wagner 54s 14:45

Fragt nach dem Status der Bestellung und wann die Lieferung kommt.

TH
Tim Hoffmann 34s 13:10

Termin für Projektbesprechung nächste Woche vereinbaren.

Unbekannt 44s 11:30

Gewinnversprechen – wahrscheinlich Spam.

SK
Sophie Meyer 10s 09:15

Reklamation zum letzten Auftrag, bittet um Rückruf.

MM
Martin Neumann 95s 13. Dez

Möchte eine mögliche Zusammenarbeit besprechen.

AR
Anna Richter 85s 13. Dez

Ist Deine Kollegin und möchte über das Projekt sprechen.

JK
Jonas König 42s 12. Dez

Erkundigt sich nach verfügbaren Terminen nächste Woche.

LB
Lina Berg 68s 12. Dez

Hat Fragen zur Rechnung und bittet um Klärung.

Anrufe
Safina
Kontakte
Profil
9:41
Anruf von Emma Martin
12. Dez
11:30
67s
+491723456789

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

Wichtigste Punkte

  • Rückruf an Emma Martin
  • Fragen zu Zeitplan & Konditionen klären
Zurückrufen
Kontakt bearbeiten

KI-Einblicke

Stimmung der Person Sehr gut

Der Anrufer war kooperativ und hat die benötigten Informationen bereitgestellt.

Dringlichkeit Niedrig

Der Anrufer kann auf eine Rückmeldung warten.

Audio & Transkript

0:16

Hallo, hier spricht Safina AI, die digitale Assistentin von Peter. Wie kann ich Ihnen helfen?

Hallo Safina, hier ist Emma Martin. Ich wollte über das Angebot und den Zeitplan sprechen.

Danke, Emma. Geht es bei Ihrer Entscheidung vor allem um das Standard- oder Pro-Paket für den Launch?

Genau. Wir brauchen das Pro-Paket und möchten nächsten Monat starten, wenn das Onboarding in der ersten Woche möglich ist.

Sag Ciao zu deiner altmodischen Mailbox.

Teste Safina kostenlos und beginne deine Anrufe intelligent zu verwalten.