El mercado hispano tiene una particularidad que Google conoce bien: 500 millones de hablantes nativos de espanol repartidos por mas de 20 paises, cada uno con sus acentos, modismos y expectativas sobre como debe sonar una conversacion. Cuando Google lanza un modelo de voz que dice soportar 90+ idiomas, la pregunta desde Latinoamerica y Espana no es “que impresionante”, sino “que tal funciona con espanol de Mexico versus espanol de Argentina versus espanol de Espana?”
El 26 de marzo de 2026, Google presento Gemini 3.1 Flash Live. Es un modelo audio-a-audio disenado para dialogo en tiempo real. No convierte la voz a texto para procesarla. Trabaja directamente con audio y genera respuestas habladas. Para el campo de los agentes de voz IA, es un lanzamiento que cambia la conversacion.
Que es Flash Live y por que importa el “tiempo real”
Flash Live forma parte de la familia Gemini de Google. Pero donde los modelos anteriores se centraban en texto, imagenes y codigo, este esta optimizado para dialogo hablado. Google lo describe como su “modelo de audio de mayor calidad” y lo ha integrado en productos para consumidores (Gemini Live, Search Live) y herramientas para desarrolladores (Gemini Live API en Google AI Studio).
El modelo ya esta disponible en mas de 200 paises a traves de las apps de Google.
La arquitectura marca la diferencia real. Los sistemas de voz IA tradicionales funcionan como una cadena: reconocimiento de voz convierte audio a texto, un modelo de lenguaje genera una respuesta en texto, y un motor de texto a voz produce el audio de salida. Cada paso agrega latencia. Cada conversion pierde informacion: el tono del hablante, el enfasis, la velocidad, el estado emocional.
Flash Live elimina parte de esa cadena trabajando directamente con audio. Similar a lo que OpenAI hizo con su API Realtime, pero con un alcance de idiomas mucho mayor. La industria entera se esta moviendo en esta direccion, y Google acaba de apostar fuerte.
90+ idiomas: lo que significa para el mercado hispanohablante
El numero por si solo es notable. OpenAI soporta unas 50 lenguas en su modo de voz. Safina ofrece 50+ idiomas para llamadas telefonicas. ElevenLabs cubre alrededor de 30 para IA conversacional. Flash Live llega con la cobertura linguistica mas amplia que un modelo de voz individual ha ofrecido.
Para empresas en Espana que trabajan con clientes en toda Europa, o para negocios en Mexico que atienden llamadas en ingles y espanol, un solo modelo que maneja multiples idiomas simplifica la infraestructura. Flash Live detecta automaticamente el idioma del hablante y puede cambiar de idioma durante la conversacion. Eso es especialmente util en Miami, Los Angeles, Barcelona, o cualquier ciudad donde los hablantes mezclan idiomas con naturalidad.
Pero hay una distincion que importa: cobertura no es lo mismo que calidad. Soportar un idioma a nivel basico es diferente de manejarlo con la precision necesaria para una llamada de negocio. Acentos regionales, vocabulario tecnico, nombres propios locales. Un modelo que maneja 90 idiomas al 80% de precision enfrenta compromisos distintos que uno que maneja 50 al 95%.
Google no ha publicado benchmarks detallados por idioma. Los 90+ idiomas se refieren al modo consumer de Gemini Live, donde los errores en la conversacion tienen menos consecuencias que en una llamada comercial donde el asistente necesita capturar un numero de telefono o una direccion correctamente. Para productos como Safina que manejan llamadas reales de negocios, la precision en datos concretos sigue siendo lo que mas importa.
Conversaciones multimodales: voz mas pantalla
Flash Live puede procesar entrada visual mientras habla contigo. Si usas Gemini Live en un telefono o laptop, el modelo ve tu pantalla o la camara mientras conversan.
Los casos de uso son claros. Soporte tecnico donde el usuario comparte pantalla. Consultas donde ambas partes ven un documento. Diagnostico de hardware a traves de la camara. Para asistencia remota, esto abre posibilidades que los modelos puramente auditivos no pueden ofrecer.
Para llamadas telefonicas, nada de esto aplica. Las llamadas son solo audio. Nadie comparte pantalla cuando llama a un numero de empresa. La capacidad multimodal es interesante como senal de hacia donde va la tecnologia (voz mas vision sera el estandar para las interacciones con IA), pero no cambia lo que un asistente telefonico necesita hacer.
Lo que si se traslada al telefono es la comprension acustica. Flash Live detecta matices en la voz del hablante: tono, emocion, enfasis. Saber si un llamante suena frustrado o tranquilo cambia como un buen asistente deberia responder. Cartesia Sonic 3 aborda este problema desde la salida (generar voz con emocion). Flash Live lo aborda desde la entrada (entender la emocion en la voz).
Function calling: del dialogo a la accion
Flash Live obtuvo 90,8% en ComplexFuncBench Audio. Este benchmark mide si un modelo de voz puede ejecutar correctamente funciones basandose en instrucciones habladas. A marzo de 2026, es la puntuacion mas alta del campo.
Function calling es lo que convierte un modelo de voz en un agente. En lugar de solo generar respuestas habladas, el modelo puede actuar: consultar un calendario, buscar un pedido, reservar una cita, transferir una llamada. El llamante dice “cambia mi cita del jueves al viernes por la tarde” y el modelo no solo confirma que entendio. Llama a la API del calendario y realiza el cambio.
Para asistentes telefonicos IA, esta es la capacidad mas relevante. Las personas no llaman para conversar. Llaman para que algo se resuelva. Un modelo que traduce instrucciones habladas en acciones concretas es exactamente lo que los agentes de voz necesitan.
Google da acceso a traves de la Gemini Live API en Google AI Studio. Los desarrolladores pueden definir las funciones disponibles y el modelo se encarga de mapear el lenguaje natural a llamadas estructuradas.
Que significa esto para los asistentes telefonicos IA
Flash Live mueve la industria de tres maneras concretas.
El estandar de idiomas acaba de subir. 90 idiomas obliga a todos los demas proveedores a responder. Para empresas que operan en multiples mercados, la distancia entre 30 idiomas y 90 es la distancia entre “cubrimos lo basico” y “podemos atender en casi cualquier lugar.” Los productos dedicados a telefonia necesitan seguir ampliando su cobertura linguistica.
Los modelos audio-nativos se estan volviendo la norma. La cadena tradicional de STT, LLM y TTS esta siendo reemplazada por modelos que trabajan directamente con audio. Flash Live, la API Realtime de OpenAI y otros van en esta direccion. Safina ya prioriza la baja latencia en su arquitectura, pero la tecnologia subyacente esta cambiando.
IA general versus IA especifica para telefonia sigue siendo la division clave. Flash Live esta disenado para IA conversacional amplia, con pantalla compartida, integracion de camara y chat de consumo. Un asistente telefonico necesita otra cosa: manejo confiable de llamadas, captura precisa de informacion, integracion con CRM, saludo personalizado, reserva de citas y docenas de flujos de trabajo especificos. Google construye el motor. Productos como Safina construyen el vehiculo completo alrededor.
Flash Live eleva el nivel de rendimiento para toda la industria. La pregunta para cada empresa es si necesita una IA de voz general o un asistente telefonico construido para sus llamadas.