Cartesia Sonic 2: El modelo TTS que cambia la voz de los asistentes telefonicos IA

El mercado latinoamericano y español tiene un problema particular con los asistentes telefónicos de IA. No es solo que las voces suenen artificiales, que ya es malo. Es que el español tiene una riqueza de acentos, ritmos y entonaciones que la mayoría de los sistemas TTS ignoran por completo. Un sistema entrenado principalmente en inglés y adaptado después al español suena exactamente a eso: un sistema entrenado en inglés intentando hablar español.

En marzo de 2025, Cartesia lanzó Sonic 2 junto con una ronda de financiación Serie A de 64 millones de dólares. Este modelo de texto a voz (TTS) no resuelve todos los problemas del español por arte de magia. Pero cambió algo que hasta entonces parecía un techo inamovible: la velocidad a la que una IA puede generar voz natural por teléfono.

Cartesia Sonic 2: Qué es y por qué importa

Cartesia es una empresa de San Francisco que desarrolla modelos de IA en tiempo real. Su línea TTS, llamada Sonic, se centra en la generación de voz con baja latencia. Sonic 2 no fue una actualización menor. Fue una reescritura del modelo con una arquitectura distinta.

La mayoría de los proveedores TTS (ElevenLabs, OpenAI, Play.HT) usan arquitecturas basadas en transformers. Son la misma familia de modelos detrás de GPT. Los transformers procesan secuencias comparando cada elemento con todos los anteriores, lo que funciona bien para texto pero se vuelve costoso con audio porque el coste computacional crece de forma cuadrática.

Cartesia optó por State Space Models (SSMs). Estos modelos mantienen un estado comprimido que se actualiza con cada nuevo dato de entrada, en vez de revisar toda la secuencia previa. El resultado práctico: generación de audio más rápida con menos potencia de cálculo.

En evaluaciones ciegas, Sonic 2 mostró una preferencia de 1,5x sobre el siguiente mejor proveedor. La calidad de voz es notablemente mejor en prosodia (el ritmo y la entonación del habla) y en la reducción de alucinaciones, esos momentos en que el TTS pronuncia palabras que no estaban en el texto original.

Para ver cómo se comparan los principales proveedores TTS en coste y calidad, tenemos una guía comparativa completa.

Por qué 90 milisegundos lo cambian todo

En una conversación telefónica, el silencio pesa. No hay expresiones faciales. No hay lenguaje corporal. Solo audio. Los estudios sobre turnos de conversación muestran que las personas empiezan a notar pausas a partir de los 200 milisegundos. Más allá de los 400ms, la conversación empieza a sentirse rota.

Los sistemas TTS tradicionales operan entre 200 y 500ms de latencia. Eso mide el tiempo desde que el sistema recibe el texto hasta que produce los primeros bytes de audio. Si sumas el reconocimiento de voz y el procesamiento del modelo de lenguaje, la demora total en una llamada con IA alcanza fácilmente 800ms o más. En ese punto, el interlocutor ya está repitiendo su pregunta o hablando encima de la IA.

Sonic 2 reduce la latencia del modelo a 90 milisegundos. La variante Sonic Turbo la baja a 40ms. Con menos de 100ms de latencia TTS, esta fase del proceso deja de ser el cuello de botella. La respuesta llega antes de que la pausa se vuelva incómoda.

No es una mejora teórica. Es la diferencia entre un interlocutor que se mantiene en la llamada y uno que cuelga. Para una explicación técnica de cómo el TTS encaja en el pipeline completo de voz, puedes leer nuestra inmersión en el enfoque TTS de Safina.

Clonación de voz y 15 idiomas

Sonic 2 se lanzó con soporte para 15 idiomas: inglés, francés, alemán, español, portugués, chino, japonés, hindi, italiano, coreano, neerlandés, polaco, ruso, sueco y turco. Que el español y el portugués estén entre los idiomas de lanzamiento es importante para el mercado hispanohablante y latinoamericano.

La clonación de voz funciona con solo 3 segundos de audio. Grabas una muestra corta y el modelo puede generar habla con esa voz en cualquiera de los 15 idiomas. Para una empresa con presencia en varios países hispanohablantes, o para un negocio en España que atiende turistas internacionales, esto significa mantener una identidad de voz coherente sin grabar locutores separados para cada mercado.

Pensemos en un caso concreto. Un despacho de abogados en Barcelona recibe llamadas en catalán, castellano e inglés. Una clínica dental en Ciudad de México atiende en español y a veces en inglés. Una agencia inmobiliaria en Miami trabaja constantemente en ambos idiomas. Poder responder en el idioma del interlocutor, con pronunciación natural y la misma identidad de voz, cambia cómo las personas perciben un sistema telefónico automatizado.

Hemos escrito por separado sobre por qué el soporte multilingüe importa para asistentes telefónicos IA.

Qué significa esto para los asistentes telefónicos IA

Una llamada telefónica es solo audio. No hay pantalla. No hay interfaz visual. No hay indicador de “escribiendo…” que le diga al interlocutor que algo está pasando. La voz es la experiencia completa del producto. Si esa voz suena plana, lenta o robótica, la confianza del interlocutor cae en los primeros segundos.

La calidad de la voz afecta directamente si una persona decide quedarse en la llamada o colgar. Esto no es una suposición, es algo medible. Las investigaciones sobre la psicología detrás de las voces IA muestran que los interlocutores forman un juicio sobre la credibilidad del sistema casi al instante.

La baja latencia crea un flujo de conversación que se siente natural. La buena prosodia hace que la IA suene como si entendiera lo que dice, no como si estuviera leyendo palabras de una lista. La clonación de voz permite que un negocio tenga una voz de marca consistente que los clientes reconocen.

Productos como Safina usan TTS como la fase final de un pipeline que incluye reconocimiento de voz, procesamiento con modelo de lenguaje y generación de audio. Cada fase añade latencia. Cuando el modelo TTS hace su parte en menos de 100 milisegundos, el tiempo total de respuesta se mantiene en un rango que se siente como una conversación real.

Cartesia Sonic 2 no inventó el buen TTS. Pero movió el listón para lo que “suficientemente bueno para llamadas telefónicas” significa. 90ms de latencia, 15 idiomas nativos, clonación desde 3 segundos de audio, a un precio de 46,70 dólares por millón de caracteres. Para cualquiera que construya productos de voz IA que hablan con personas reales por teléfono, las reglas del juego cambiaron en marzo de 2025.

Cartesia Sonic 2: El modelo TTS que cambia la voz de los asistentes telefonicos IA

Cartesia Sonic 2: Qué es y por qué importa

Por qué 90 milisegundos lo cambian todo

Clonación de voz y 15 idiomas

Qué significa esto para los asistentes telefónicos IA

Fuentes

Diga adiós a su buzón de voz anticuado.

Safina Support Bot