Google afina su modelo de vídeo con IA: Veo 3.1 llega con sonido integrado y más control creativo

Google DeepMind ha presentado Veo 3.1, una nueva versión de su modelo de generación de vídeo con inteligencia artificial. La actualización incorpora audio sincronizado de forma nativa y herramientas avanzadas de edición dentro de la plataforma Flow. Disponible a través de la API Gemini en un preview de pago, la versión refuerza la apuesta de Google por dominar el terreno del vídeo sintético profesional.

Durante los cinco meses previos, los usuarios de Flow generaron más de 275 millones de vídeos, lo que permitió a DeepMind ajustar su modelo con datos reales de uso. El resultado, según la compañía, es una IA más precisa en la interpretación de instrucciones, con mayor coherencia visual y un control creativo más afinado.

Veo is getting a major upgrade. 🚀

We’re rolling out Veo 3.1, our updated video generation model, alongside improved creative controls for filmmakers, storytellers, and developers – many of them with audio. 🧵 pic.twitter.com/YQVRxwj7hk
— Google DeepMind (@GoogleDeepMind) October 15, 2025

Novedades principales de Veo 3.1

Audio incorporado: Flow ya no se limita a generar imágenes. Ahora añade sonido —diálogos, efectos y música— directamente en el proceso, eliminando la necesidad de postproducción externa.
Control de luz y sombras: los creadores pueden ajustar reflejos, matices lumínicos y profundidad para obtener un acabado más cinematográfico.
Extensión de escenas: desde el último fotograma de un clip, el sistema puede generar hasta un minuto adicional de vídeo, manteniendo coherencia visual y sonora.
Eliminación de objetos (en desarrollo): las próximas versiones permitirán borrar elementos no deseados y reconstruir el fondo automáticamente.

Pese a la evolución técnica, Veo 3.1 mantiene el mismo coste que su versión anterior y ya está disponible tanto en Flow como en Gemini. Google prevé ampliar su acceso a desarrolladores mediante la API.

Respuesta directa a la competencia

El lanzamiento coincide con el impulso de Sora 2, la herramienta de OpenAI que mejoró la física de los personajes y la sincronización labial. Google responde con un enfoque distinto: integrar el audio como parte del proceso generativo y ofrecer un entorno más completo para la producción audiovisual.

El objetivo va más allá de crear clips visualmente atractivos. La compañía busca unificar planificación, edición y sonido en un mismo flujo de trabajo, posicionando a Flow como un estándar para la creación profesional de vídeo con IA.

Un paso más hacia la creación híbrida

Con Veo 3.1, la línea entre la creación humana y la generación automática se hace más fina. Startups, estudios y desarrolladores pueden explorar nuevas aplicaciones, desde publicidad personalizada hasta cine generado íntegramente por IA.

El avance, sin embargo, plantea un dilema: ¿Cómo distinguir lo real de lo sintético? Google afirma que seguirá incorporando sistemas de trazabilidad y etiquetado para garantizar transparencia. En un contexto donde el realismo puede derivar en desinformación, la responsabilidad técnica se vuelve tan crucial como la innovación. Más que una simple actualización, Veo 3.1 marca el inicio de una nueva fase: la convergencia total entre texto, imagen y sonido bajo una misma lógica generativa.