Cartesia Sonic 3: Glosy AI z emocjami i ponad 40 jezykami

Cartesia Sonic 3 dodaje emocje, smiech i 40+ jezykow do syntezy mowy AI z opoznieniem ponizej 100ms. Co to znaczy dla asystentow telefonicznych.

David Schemm David Schemm

Każdy, kto buduje systemy głosowe AI, zna ten moment: odsłuchujesz nagranie testowe i wszystko brzmi poprawnie. Słowa się zgadzają, wymowa jest czysta, tempo odpowiednie. Ale czegoś brakuje. Głos brzmi jak automat, nie jak człowiek. Brak ciepła w odpowiedzi na problem klienta. Brak entuzjazmu przy dobrej wiadomości. Brak życia.

Cartesia właśnie wydała Sonic 3, który mierzy się z tym problemem wprost. Model (snapshot sonic-3-2025-10-27, dostępny od końca 2025) zachowuje opóźnienie poniżej 100 milisekund, jednocześnie dodając wyrażanie emocji i obsługę ponad 40 języków. W porównaniu z Sonic 2, który obsługiwał 15 języków bez kontroli emocjonalnej, to spora zmiana.

Emocje w głosie: dlaczego to ważne przy rozmowach telefonicznych

W Polsce rozmowy telefoniczne z firmami mają swoją specyfikę. Polacy oczekują uprzejmości, ale też autentyczności. Zbyt formalna, beznamiętna odpowiedź wzbudza podejrzenia. Zbyt entuzjastyczna w niewłaściwym momencie irytuje. Ton ma ogromne znaczenie.

Kiedy dzwoni zdenerwowany klient, oczekuje, że usłyszy w głosie zrozumienie. Kiedy ktoś dzwoni z prostym pytaniem, oczekuje rzeczowej, ale przyjaznej odpowiedzi. Monotonny głos, który tak samo reaguje na skargę i na pytanie o godziny otwarcia, nie budzi zaufania.

Sonic 3 wprowadza kontrolę emocjonalną, która pozwala na:

  • Ciepło i empatię, gdy rozmówca jest zestresowany
  • Entuzjazm przy przekazywaniu pozytywnych informacji
  • Spokojny, uspokajający ton dla niespokojnych rozmówców
  • Naturalny śmiech, kiedy kontekst rozmowy na to pozwala

Sterowanie odbywa się przez tagi SSML i parametry API. Głośność, tempo i ton emocjonalny można ustawiać na poziomie zdania. Jedna odpowiedź może zacząć się rzeczowo, a zakończyć ciepło, zależnie od treści.

Dla polskiego rynku, gdzie komunikacja telefoniczna jest jednym z głównych kanałów kontaktu z firmami (szczególnie w małych i średnich przedsiębiorstwach), możliwość dostosowania tonu głosu AI to praktyczna zmiana. Nie chodzi o udawanie emocji. Chodzi o to, żeby nie brzmieć jak robot, kiedy sytuacja wymaga ludzkiego podejścia.

Ponad 40 języków: od 15 do globalnego zasięgu

Sonic 2 obsługiwał 15 języków. Polski był w tej grupie, podobnie jak główne języki europejskie. Ale jeśli firma miała klientów mówiących po turecku, arabsku czy wietnamsku, trzeba było szukać innego dostawcy.

Sonic 3 poszerza listę do ponad 40 języków, obejmując około 95% populacji świata. Co to oznacza w praktyce?

Dziewięć języków indyjskich to największa pojedyncza ekspansja. Hindi, bengalski, tamilski, telugu, gudżaracki, kannada, malajalam, marathi i pendżabski. Dla polskich firm IT, które współpracują z zespołami w Indiach (a takich jest coraz więcej), możliwość obsługi połączeń w lokalnych językach przez ten sam silnik TTS to praktyczne ułatwienie.

Arabski i turecki otwierają rynki Bliskiego Wschodu, które są coraz ważniejsze dla europejskich eksporterów.

Języki Azji Wschodniej i Południowo-Wschodniej poszerzają zasięg dla firm z branży e-commerce i technologicznej, które obsługują klientów na tych rynkach.

Jeden dostawca TTS może teraz obsługiwać rozmowy po polsku, niemiecku, angielsku, arabsku i hindi bez łączenia różnych silników. To uproszczenie architektury, które przekłada się na mniejszą liczbę punktów awarii i łatwiejsze utrzymanie systemu.

Więcej o tym, jak agenci głosowi AI rozwijają się na świecie, znajdziesz w naszym przeglądzie agentów głosowych AI na 2026 rok.

Certyfikaty bezpieczeństwa dla wymagających branż

Certyfikaty bezpieczeństwa to temat, który pojawia się w momencie, gdy firma chce wdrożyć AI w obszarze regulowanym. Do tego momentu nikt o tym nie myśli. Potem staje się to warunkiem koniecznym.

Sonic 3 posiada certyfikaty SOC 2 Type II, HIPAA i PCI Level 1.

SOC 2 Type II potwierdza, że systemy Cartesia utrzymują bezpieczne praktyki przetwarzania danych w sposób ciągły, nie tylko w momencie audytu. HIPAA umożliwia zastosowanie w ochronie zdrowia, gdzie dane pacjentów przechodzą przez silnik TTS. PCI Level 1 obejmuje rozmowy związane z płatnościami na najwyższym poziomie bezpieczeństwa.

Dla polskiego rynku, gdzie RODO (europejskie GDPR) nakłada rygorystyczne wymagania na przetwarzanie danych osobowych, posiadanie dostawcy z takimi certyfikatami upraszcza proces decyzyjny. Gabinety lekarskie, kancelarie prawne i doradcy finansowi mogą oceniać rozwiązanie bez wielomiesięcznego procesu weryfikacji compliance.

Klonowanie głosu w 10 sekund

Sonic 3 upraszcza też klonowanie głosu. Natychmiastowe klonowanie wymaga teraz tylko 10 sekund nagrania referencyjnego. Krótka próbka wystarczy, żeby model wygenerował klon oddający cechy mówcy.

Dla firm, które chcą, żeby ich asystent telefoniczny AI brzmiał jak konkretna osoba (właściciel firmy, recepcjonistka, której głos klienci już znają), bariera wejścia spada. Dziesięć sekund to nagranie ze smartfona. Dla wyższych wymagań jakościowych Cartesia oferuje nadal profesjonalne klonowanie z dłuższymi próbkami.

Co to oznacza dla asystentów telefonicznych AI

Każda poprawa w syntezie mowy bezpośrednio wpływa na jakość rozmów telefonicznych prowadzonych przez AI. Sonic 3 celuje w obszary, które dla aplikacji telefonicznych mają największe znaczenie.

Emocje zmieniają zachowanie rozmówców. Kiedy głos potrafi wyrazić odpowiednie zainteresowanie lub troskę, ludzie czują się bardziej komfortowo. Zostają dłużej na linii, dzielą się większą ilością informacji i kończą rozmowę z lepszym wrażeniem. Dla produktów takich jak Safina, które obsługują prawdziwe rozmowy biznesowe, oznacza to więcej przechwyconych leadów, bardziej zadowolonych rozmówców i mniej skarg na “robota po drugiej stronie.”

Więcej języków to więcej rynków. Asystent telefoniczny AI z 15 językami zostawia pieniądze na stole. Przy 40+ pytanie zmienia się z “czy możemy obsłużyć ten język?” na “czy chcemy wejść na ten rynek?”

Certyfikaty usuwają bariery. Gabinety lekarskie, kancelarie i doradcy finansowi mogą rozważać rozwiązania AI bez wielomiesięcznego procesu weryfikacji.

Żeby zobaczyć, jak te postępy wpisują się w szerszy kontekst syntezy mowy, zajrzyj do naszego porównania dostawców TTS na 2025 rok. A jeśli chcesz zrozumieć, jak Safina pracuje z syntezą mowy od strony technicznej, wyjaśniamy to w naszej serii technicznej.

Źródła

9:41

Safina obsłużyła w tym tygodniu 51 połączeń

46

Zaufane

4

Podejrzane

1

Niebezpieczne

Ostatnie 7 dni
Filter
EM
Emma Martin 67s 15:30

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

KN
Katarzyna Nowak 54s 14:45

Pyta o status zamówienia i termin dostawy.

TW
Tomasz Wiśniewski 34s 13:10

Umówienie spotkania w sprawie projektu na przyszły tydzień.

Nieznany 44s 11:30

Obietnica wygranej — prawdopodobnie spam.

MW
Magdalena Wójcik 10s 09:15

Reklamacja ostatniego zamówienia, prosi o oddzwonienie.

PZ
Piotr Zieliński 95s 13 gru

Chce omówić potencjalną współpracę.

AR
Anna Rutkowska 85s 13 gru

Jest Twoją koleżanką i chce porozmawiać o projekcie.

JK
Jakub Krawczyk 42s 12 gru

Pyta o dostępne terminy na przyszły tydzień.

LB
Lena Bąk 68s 12 gru

Ma pytania dotyczące faktury i prosi o wyjaśnienie.

Połączenia
Safina
Kontakty
Profil
9:41
Połączenie od Emmy Martin
12 gru
11:30
67s
+48223456789

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

Kluczowe punkty

  • Oddzwonić do Emmy Martin
  • Wyjaśnić pytania o harmonogram i warunki cenowe
Oddzwoń
Edytuj kontakt

Wgląd AI

Nastrój rozmówcy Bardzo dobry

Rozmówca był współpracujący i przekazał potrzebne informacje.

Pilność Niski

Rozmówca może poczekać na odpowiedź.

Audio i transkrypcja

0:16

Dzień dobry, tu Safina AI, cyfrowy asystent Piotra. W czym mogę pomóc?

Dzień dobry Safina, tu Emma Martin. Chciałam porozmawiać o ofercie i harmonogramie.

Dziękuję, Emmo. Czy przy wdrożeniu rozważają Państwo głównie pakiet Standard czy Pro?

Dokładnie. Potrzebujemy pakietu Pro i chcielibyśmy wystartować w przyszłym miesiącu, jeśli onboarding będzie możliwy w pierwszym tygodniu.

Pożegnaj się ze staromodną pocztą głosową.

Wypróbuj Safina za darmo i zacznij inteligentnie zarządzać swoimi połączeniami.