Polski rynek ma swoje specyficzne wymagania wobec głosowych systemów AI. Język polski, z jego złożoną deklinacją, bogatą fleksją i charakterystyczną intonacją, jest wyzwaniem dla większości systemów syntezy mowy. Większość modeli TTS traktuje polski jako język drugiej kategorii. Efekt jest słyszalny natychmiast: sztuczna kadencja, błędne akcenty, dziwne pauzy w środku zdań.
W marcu 2025 roku Cartesia wypuściła Sonic 2, model text-to-speech nowej generacji, i jednocześnie ogłosiła rundę finansowania Series A na kwotę 64 milionów dolarów. Polski znalazł się wśród 15 języków dostępnych od pierwszego dnia. To nie jest dodatek, który pojawił się miesiące po premierze. To pełne wsparcie od startu.
Cartesia Sonic 2: Co to jest i dlaczego się wyróżnia
Cartesia to firma z San Francisco specjalizująca się w modelach AI działających w czasie rzeczywistym. Ich linia TTS o nazwie Sonic od początku skupiała się na niskim opóźnieniu generowania mowy. Sonic 2 to nie drobna aktualizacja. To przebudowa modelu z inną architekturą niż konkurencja.
Większość dostawców TTS, w tym ElevenLabs, OpenAI i Play.HT, korzysta z architektur opartych na transformerach. To ta sama rodzina modeli co GPT. Transformery przetwarzają sekwencje porównując każdy element ze wszystkimi poprzednimi. W przypadku audio staje się to kosztowne obliczeniowo, bo koszty rosną kwadratowo wraz z długością sekwencji.
Cartesia wybrała State Space Models (SSMs). Zamiast analizować całą dotychczasową sekwencję, SSM utrzymuje skompresowany stan, który aktualizuje się z każdym nowym punktem danych. Praktyczny efekt: szybsze generowanie dźwięku przy mniejszym zużyciu mocy obliczeniowej.
Sonic 2 osiąga opóźnienie modelu na poziomie 90 milisekund. Wariant Sonic Turbo schodzi do 40ms. W testach porównawczych przeprowadzonych w sposób zaślepiony Sonic 2 był preferowany 1,5x częściej niż następny najlepszy dostawca. Jakość głosu jest zauważalnie lepsza w prozdii (rytm i intonacja mowy), a halucynacje, czyli momenty, gdy TTS wymawia słowa nieobecne w oryginalnym tekście, zostały znacząco ograniczone.
Jeśli szukasz porównania głównych dostawców TTS pod kątem kosztów i jakości, przygotowaliśmy szczegółowe zestawienie.
Dlaczego 90 milisekund zmienia zasady gry
Podczas rozmowy telefonicznej cisza ma ciężar. Nie ma twarzy rozmówcy. Nie ma gestów. Nie ma wizualnych wskazówek, że system “myśli”. Tylko dźwięk. Badania nad dynamiką konwersacji pokazują, że ludzie zaczynają odczuwać pauzy jako nienaturalne po około 200 milisekundach. Powyżej 400ms rozmowa zaczyna się rozpadać.
Tradycyjne systemy TTS pracują z opóźnieniem 200 do 500ms. To czas od otrzymania tekstu do wygenerowania pierwszych bajtów audio. Jeśli dodamy do tego rozpoznawanie mowy i przetwarzanie przez model językowy, całkowite opóźnienie w rozmowie z AI sięga 800ms lub więcej. Przy takiej pauzie rozmówca zaczyna powtarzać pytanie, mówić jednocześnie z AI albo po prostu się rozłącza.
Sonic 2 redukuje opóźnienie modelu do 90 milisekund. Sonic Turbo do 40ms. Przy opóźnieniu TTS poniżej 100ms ten etap procesu przestaje być wąskim gardłem. Odpowiedź dociera zanim cisza stanie się niezręczna.
To nie jest przewaga widoczna tylko na wykresie. To różnica między rozmówcą, który zostaje na linii, a takim, który rozłącza się po trzech sekundach ciszy. Techniczną analizę tego, jak TTS wpisuje się w pełny pipeline głosowy, znajdziesz w naszym wglądzie w podejście TTS Safiny.
Klonowanie głosu i 15 języków
Sonic 2 wystartował z obsługą 15 języków: angielski, francuski, niemiecki, hiszpański, portugalski, chiński, japoński, hindi, włoski, koreański, niderlandzki, polski, rosyjski, szwedzki i turecki. To, że polski jest w tej grupie od dnia premiery, ma znaczenie. Historycznie polski często trafiał do TTS jako język dodany po miesiącach, z gorszą jakością niż angielski czy niemiecki.
Klonowanie głosu wymaga zaledwie 3 sekund nagrania. Krótka próbka wystarczy, żeby model mógł generować mowę tym głosem we wszystkich 15 językach. Dla polskich firm, które obsługują klientów zagranicznych lub mają oddziały w innych krajach, oznacza to spójny głos marki bez konieczności zatrudniania lektorów dla każdego rynku.
Weźmy kilka przykładów. Biuro nieruchomości w Krakowie odbiera zapytania po polsku, angielsku i niemiecku. Klinika stomatologiczna w Warszawie przyjmuje pacjentów polskojęzycznych i anglojęzycznych. Firma logistyczna z Gdańska komunikuje się z klientami w Polsce, Niemczech i Skandynawii. Możliwość odpowiedzi w języku rozmówcy, z naturalną wymową i rozpoznawalnym głosem firmy, zmienia sposób, w jaki ludzie postrzegają automatyczny system telefoniczny.
Napisaliśmy osobno o tym, dlaczego wielojęzyczność ma znaczenie dla asystentów telefonicznych AI i przygotowaliśmy przegląd agentów głosowych AI w 2026 roku.
Co to oznacza dla asystentów telefonicznych AI
Rozmowa telefoniczna to wyłącznie dźwięk. Nie ma ekranu. Nie ma interfejsu. Nie ma animacji ładowania. Głos jest całym doświadczeniem produktu. Jeśli ten głos brzmi płasko, reaguje z opóźnieniem lub ma mechaniczny charakter, rozmówca traci zaufanie w ciągu pierwszych sekund.
Badania nad psychologią głosu AI pokazują, że rozmówcy formułują ocenę wiarygodności systemu niemal natychmiast. Głos, który brzmi po ludzku, utrzymuje zaangażowanie. Głos, który brzmi jak maszyna, daje powód do rozłączenia.
Niskie opóźnienie tworzy naturalny przepływ rozmowy. Dobra prozdia sprawia, że AI brzmi jakby rozumiała to, co mówi, a nie jakby odczytywała tekst z listy. Klonowanie głosu pozwala firmie zachować rozpoznawalny, profesjonalny ton, który klienci kojarzą z marką.
Produkty takie jak Safina wykorzystują TTS jako ostatni etap pipeline’u obejmującego rozpoznawanie mowy, przetwarzanie modelem językowym i generowanie audio. Każdy etap dodaje opóźnienie. Kiedy model TTS wykonuje swoją część w mniej niż 100 milisekund, całkowity czas odpowiedzi mieści się w zakresie, który przypomina prawdziwą rozmowę.
Cartesia Sonic 2 przesunęła standard. 90ms opóźnienia, 15 języków (w tym polski od premiery), klonowanie głosu z 3 sekund nagrania, cena 46,70 dolara za milion znaków. Dla każdego, kto buduje produkty głosowe AI do prawdziwych rozmów telefonicznych, marzec 2025 wyznaczył nowy punkt odniesienia.