OpenAI GPT-5.3-Codex y Codex-Spark: IA de programacion en tiempo real [2026]

OpenAI lanzo dos modelos en febrero de 2026 que apuntan en direcciones distintas. GPT-5.3-Codex es la evolucion de su modelo de programacion agente: mejor razonamiento, un 25 % mas rapido, resultados tope en SWE-Bench Pro y Terminal-Bench 2.0. Codex-Spark es otra cosa. Un modelo mas pequeno construido desde cero para programacion en tiempo real. Mas de 1.000 tokens por segundo. Corriendo sobre hardware Cerebras.

Los dos modelos viven dentro de la plataforma OpenAI Codex, un entorno de programacion en la nube donde agentes de IA pueden leer repositorios completos, escribir codigo, ejecutar tests y corregir errores. Funciona con una herramienta CLI y extensiones para VS Code.

Para el ecosistema tech en Espana y Latinoamerica, estas herramientas importan. No solo para los desarrolladores que las usan directamente, sino para cualquier empresa que construye productos de IA.

GPT-5.3-Codex: Razonamiento mas fuerte para tareas reales

La diferencia entre un modelo de codigo que sugiere lineas y uno que resuelve problemas reales es enorme. GPT-5.3-Codex pertenece a la segunda categoria.

Cuando le das una tarea a este modelo, no genera una respuesta y se detiene. Lee el repositorio entero. Entiende como encajan los modulos. Localiza el codigo relevante, escribe cambios en multiples archivos, ejecuta los tests, lee los errores y se autocorrige. El proceso tiene ciclos, igual que un desarrollador humano.

GPT-5.3-Codex mejora respecto a su predecesor en dos frentes. El razonamiento es mas solido: en SWE-Bench Pro, que usa issues reales de GitHub con alta complejidad, consigue las mejores puntuaciones del mercado. Y es un 25 % mas rapido, lo que importa bastante cuando cada tarea implica decenas de llamadas al modelo.

Terminal-Bench 2.0 es otro benchmark donde destaca. Este test mide si el modelo puede operar en un terminal: ejecutar comandos, interpretar resultados y decidir los siguientes pasos. No es solo generar codigo. Es entender un entorno de desarrollo completo.

Para equipos que mantienen sistemas grandes, esto se traduce en refactorizaciones mas rapidas, mejor cobertura de tests y menos tiempo invertido en tareas repetitivas.

Codex-Spark: Lo que significan 1.000 tokens por segundo

La mayoria de los modelos de lenguaje grandes producen entre 30 y 150 tokens por segundo. Suficiente para una conversacion, pero cuando generas bloques de codigo largos, la espera se nota.

Codex-Spark rompe esa barrera. Mas de 1.000 tokens por segundo. Una funcion de 200 lineas aparece en menos de un segundo. La interaccion cambia. Ya no esperas a que la IA termine. La IA trabaja a tu ritmo.

Esta velocidad viene de una asociacion con Cerebras y su Wafer Scale Engine 3. Los clusters GPU tradicionales distribuyen calculos entre muchos chips separados, y los datos viajan constantemente entre ellos. Cerebras pone todo en un unico chip a escala de oblea (wafer), eliminando gran parte de la latencia en inferencia.

OpenAI diseno Codex-Spark especificamente para este hardware. El modelo es mas compacto que GPT-5.3-Codex y sacrifica algo de profundidad de razonamiento a cambio de velocidad. En la practica, lo usarias para iteracion rapida: autocompletado agresivo, ediciones pequenas, programacion interactiva. Para decisiones arquitectonicas complejas, seguirias usando el modelo completo.

Al lanzamiento, Codex-Spark es una preview de investigacion para usuarios de ChatGPT Pro. Tiene una ventana de contexto de 128K tokens y solo procesa texto (sin imagenes).

La conexion entre IA de programacion e IA de voz

Puede parecer raro que un blog sobre un asistente telefonico de IA cubra modelos de programacion. La conexion es directa: las herramientas que construyen productos de IA determinan lo rapido que esos productos mejoran.

Un agente de voz como Safina tiene muchas piezas. Procesamiento de voz en tiempo real, inferencia de modelos de lenguaje, sintesis de voz, integracion telefonica, gestion del estado de conversacion. La arquitectura detras de una IA de voz en tiempo real no es un sistema simple.

Cuando una IA de programacion puede leer toda la base de codigo, entender la relacion entre componentes y producir cambios correctos en multiples archivos, el equipo de desarrollo va mas rapido. Las correcciones de bugs pasan de horas a minutos. Los prototipos de nuevas funciones se construyen en un dia en lugar de una semana.

Pero hay algo mas interesante. La tendencia de Codex-Spark hacia la interaccion en tiempo real (1.000+ tokens por segundo) refleja lo que esta pasando en la IA de voz. Las llamadas telefonicas no pueden esperar. Cuando alguien llama y hace una pregunta, la respuesta necesita llegar en unos cientos de milisegundos. Si tarda mas, la conversacion se siente rota.

Ambos campos convergen en la misma leccion. La IA que funciona en tiempo real es un producto diferente de la IA que funciona por lotes. Un modelo de programacion a 100 tokens por segundo es una herramienta que consultas. A 1.000 tokens por segundo es un companero de trabajo. Un modelo de voz con 500 ms de latencia suena a robot. Con 200 ms suena a persona.

Que significa esto para empresas que usan IA

Para startups y empresas en mercados hispanohablantes que estan construyendo productos de IA o integrando herramientas inteligentes, estas mejoras tienen impacto directo.

Equipos mas pequenos pueden mantener sistemas mas complejos. La barrera de entrada para construir productos de IA baja. Un equipo de tres desarrolladores con acceso a herramientas como Codex puede producir software al ritmo que antes necesitaba un equipo de diez.

Esto no reemplaza a los desarrolladores. Al contrario, aumenta lo que cada persona puede hacer. Y para productos de IA en concreto (como asistentes de voz, chatbots o herramientas de automatizacion), la aceleracion del desarrollo se traduce en mas iteraciones, mas pruebas y, al final, un mejor producto.

El hardware especializado detras de Codex-Spark tambien marca una tendencia. Si chips como los de Cerebras pueden llevar la inferencia de modelos de lenguaje a mas de 1.000 tokens por segundo para programacion, arquitecturas similares podrian reducir la latencia de la IA de voz todavia mas. No estamos ahi aun para conversaciones telefonicas, pero la direccion es clara.

Fuentes

Introducing GPT-5.3-Codex - OpenAI
Introducing GPT-5.3-Codex-Spark - OpenAI
OpenAI Codex - OpenAI

GPT-5.3-Codex: Razonamiento mas fuerte para tareas reales

Codex-Spark: Lo que significan 1.000 tokens por segundo

La conexion entre IA de programacion e IA de voz

Que significa esto para empresas que usan IA

Fuentes

Diga adiós a su buzón de voz anticuado.