Każdy, kto buduje systemy głosowe AI, zna ten moment: odsłuchujesz nagranie testowe i wszystko brzmi poprawnie. Słowa się zgadzają, wymowa jest czysta, tempo odpowiednie. Ale czegoś brakuje. Głos brzmi jak automat, nie jak człowiek. Brak ciepła w odpowiedzi na problem klienta. Brak entuzjazmu przy dobrej wiadomości. Brak życia.
Cartesia właśnie wydała Sonic 3, który mierzy się z tym problemem wprost. Model (snapshot sonic-3-2025-10-27, dostępny od końca 2025) zachowuje opóźnienie poniżej 100 milisekund, jednocześnie dodając wyrażanie emocji i obsługę ponad 40 języków. W porównaniu z Sonic 2, który obsługiwał 15 języków bez kontroli emocjonalnej, to spora zmiana.
Emocje w głosie: dlaczego to ważne przy rozmowach telefonicznych
W Polsce rozmowy telefoniczne z firmami mają swoją specyfikę. Polacy oczekują uprzejmości, ale też autentyczności. Zbyt formalna, beznamiętna odpowiedź wzbudza podejrzenia. Zbyt entuzjastyczna w niewłaściwym momencie irytuje. Ton ma ogromne znaczenie.
Kiedy dzwoni zdenerwowany klient, oczekuje, że usłyszy w głosie zrozumienie. Kiedy ktoś dzwoni z prostym pytaniem, oczekuje rzeczowej, ale przyjaznej odpowiedzi. Monotonny głos, który tak samo reaguje na skargę i na pytanie o godziny otwarcia, nie budzi zaufania.
Sonic 3 wprowadza kontrolę emocjonalną, która pozwala na:
- Ciepło i empatię, gdy rozmówca jest zestresowany
- Entuzjazm przy przekazywaniu pozytywnych informacji
- Spokojny, uspokajający ton dla niespokojnych rozmówców
- Naturalny śmiech, kiedy kontekst rozmowy na to pozwala
Sterowanie odbywa się przez tagi SSML i parametry API. Głośność, tempo i ton emocjonalny można ustawiać na poziomie zdania. Jedna odpowiedź może zacząć się rzeczowo, a zakończyć ciepło, zależnie od treści.
Dla polskiego rynku, gdzie komunikacja telefoniczna jest jednym z głównych kanałów kontaktu z firmami (szczególnie w małych i średnich przedsiębiorstwach), możliwość dostosowania tonu głosu AI to praktyczna zmiana. Nie chodzi o udawanie emocji. Chodzi o to, żeby nie brzmieć jak robot, kiedy sytuacja wymaga ludzkiego podejścia.
Ponad 40 języków: od 15 do globalnego zasięgu
Sonic 2 obsługiwał 15 języków. Polski był w tej grupie, podobnie jak główne języki europejskie. Ale jeśli firma miała klientów mówiących po turecku, arabsku czy wietnamsku, trzeba było szukać innego dostawcy.
Sonic 3 poszerza listę do ponad 40 języków, obejmując około 95% populacji świata. Co to oznacza w praktyce?
Dziewięć języków indyjskich to największa pojedyncza ekspansja. Hindi, bengalski, tamilski, telugu, gudżaracki, kannada, malajalam, marathi i pendżabski. Dla polskich firm IT, które współpracują z zespołami w Indiach (a takich jest coraz więcej), możliwość obsługi połączeń w lokalnych językach przez ten sam silnik TTS to praktyczne ułatwienie.
Arabski i turecki otwierają rynki Bliskiego Wschodu, które są coraz ważniejsze dla europejskich eksporterów.
Języki Azji Wschodniej i Południowo-Wschodniej poszerzają zasięg dla firm z branży e-commerce i technologicznej, które obsługują klientów na tych rynkach.
Jeden dostawca TTS może teraz obsługiwać rozmowy po polsku, niemiecku, angielsku, arabsku i hindi bez łączenia różnych silników. To uproszczenie architektury, które przekłada się na mniejszą liczbę punktów awarii i łatwiejsze utrzymanie systemu.
Więcej o tym, jak agenci głosowi AI rozwijają się na świecie, znajdziesz w naszym przeglądzie agentów głosowych AI na 2026 rok.
Certyfikaty bezpieczeństwa dla wymagających branż
Certyfikaty bezpieczeństwa to temat, który pojawia się w momencie, gdy firma chce wdrożyć AI w obszarze regulowanym. Do tego momentu nikt o tym nie myśli. Potem staje się to warunkiem koniecznym.
Sonic 3 posiada certyfikaty SOC 2 Type II, HIPAA i PCI Level 1.
SOC 2 Type II potwierdza, że systemy Cartesia utrzymują bezpieczne praktyki przetwarzania danych w sposób ciągły, nie tylko w momencie audytu. HIPAA umożliwia zastosowanie w ochronie zdrowia, gdzie dane pacjentów przechodzą przez silnik TTS. PCI Level 1 obejmuje rozmowy związane z płatnościami na najwyższym poziomie bezpieczeństwa.
Dla polskiego rynku, gdzie RODO (europejskie GDPR) nakłada rygorystyczne wymagania na przetwarzanie danych osobowych, posiadanie dostawcy z takimi certyfikatami upraszcza proces decyzyjny. Gabinety lekarskie, kancelarie prawne i doradcy finansowi mogą oceniać rozwiązanie bez wielomiesięcznego procesu weryfikacji compliance.
Klonowanie głosu w 10 sekund
Sonic 3 upraszcza też klonowanie głosu. Natychmiastowe klonowanie wymaga teraz tylko 10 sekund nagrania referencyjnego. Krótka próbka wystarczy, żeby model wygenerował klon oddający cechy mówcy.
Dla firm, które chcą, żeby ich asystent telefoniczny AI brzmiał jak konkretna osoba (właściciel firmy, recepcjonistka, której głos klienci już znają), bariera wejścia spada. Dziesięć sekund to nagranie ze smartfona. Dla wyższych wymagań jakościowych Cartesia oferuje nadal profesjonalne klonowanie z dłuższymi próbkami.
Co to oznacza dla asystentów telefonicznych AI
Każda poprawa w syntezie mowy bezpośrednio wpływa na jakość rozmów telefonicznych prowadzonych przez AI. Sonic 3 celuje w obszary, które dla aplikacji telefonicznych mają największe znaczenie.
Emocje zmieniają zachowanie rozmówców. Kiedy głos potrafi wyrazić odpowiednie zainteresowanie lub troskę, ludzie czują się bardziej komfortowo. Zostają dłużej na linii, dzielą się większą ilością informacji i kończą rozmowę z lepszym wrażeniem. Dla produktów takich jak Safina, które obsługują prawdziwe rozmowy biznesowe, oznacza to więcej przechwyconych leadów, bardziej zadowolonych rozmówców i mniej skarg na “robota po drugiej stronie.”
Więcej języków to więcej rynków. Asystent telefoniczny AI z 15 językami zostawia pieniądze na stole. Przy 40+ pytanie zmienia się z “czy możemy obsłużyć ten język?” na “czy chcemy wejść na ten rynek?”
Certyfikaty usuwają bariery. Gabinety lekarskie, kancelarie i doradcy finansowi mogą rozważać rozwiązania AI bez wielomiesięcznego procesu weryfikacji.
Żeby zobaczyć, jak te postępy wpisują się w szerszy kontekst syntezy mowy, zajrzyj do naszego porównania dostawców TTS na 2025 rok. A jeśli chcesz zrozumieć, jak Safina pracuje z syntezą mowy od strony technicznej, wyjaśniamy to w naszej serii technicznej.