En el marco del Google I/O 2026, la compañía presentó Gemini Omni Flash, su nuevo modelo de inteligencia artificial capaz de crear y editar contenido audiovisual a partir de cualquier combinación de entradas: texto, imágenes, audio y grabaciones reales. La integración directa en YouTube Shorts y la app Gemini apunta de lleno a la economía de creadores latinoamericanos.
Google presentó en el Google I/O 2026 a Gemini Omni, un nuevo modelo de inteligencia artificial generativa diseñado desde su base para trabajar con múltiples tipos de información de manera simultánea —lo que en el campo técnico se denomina arquitectura multimodal— con foco en la creación y edición de video.
El primer modelo de esta familia se llama Gemini Omni Flash y ya comenzó a desplegarse dentro de la app Gemini, Google Flow y YouTube Shorts
Qué significa «multimodal» y por qué importa
Un modelo multimodal es aquel que puede procesar y combinar distintos tipos de datos al mismo tiempo: texto escrito, imágenes fijas, fragmentos de audio y video. En la práctica, esto significa que un usuario podría tomar una fotografía de referencia, agregar una descripción en lenguaje natural y una pista musical, y obtener como resultado un video generado automáticamente que respete el estilo visual, la narrativa indicada y la sincronización con el audio.
Google explicó que Omni fue diseñado como un sistema multimodal desde su origen, capaz de combinar imágenes, texto, video y audio para crear contenido nuevo de manera integrada. La compañía también mostró capacidades para aplicar efectos específicos, modificar movimientos dentro de una escena o usar bocetos y dibujos como punto de partida para producciones audiovisuales más complejas.
Edición conversacional: modificar un video hablando con la IA
Uno de los aspectos técnicamente más novedosos de Gemini Omni es su modo de edición conversacional. A diferencia de los generadores de video convencionales -donde cada instrucción funciona de forma aislada y el resultado puede perder coherencia visual entre una modificación y la siguiente-, Omni permite mantener un diálogo continuo con el modelo mientras se realizan cambios sucesivos sobre un mismo material.
Según Google, Omni mantiene consistencia en personajes, escenarios y movimiento físico incluso después de múltiples modificaciones. La compañía mostró ejemplos donde una simple grabación cotidiana podía transformarse completamente: espejos líquidos, esculturas hechas de burbujas o ambientes retrofuturistas generados a partir de videos reales.
Física y razonamiento: atacar el talón de Aquiles de los generadores actuales
Uno de los problemas más notorios de los modelos de generación de video existentes es la incoherencia física: escenas visualmente llamativas pero donde los objetos se comportan de manera imposible, los líquidos fluyen en dirección incorrecta o las sombras no corresponden a ninguna fuente de luz real.
Google aseguró que Omni incorpora una comprensión más avanzada de elementos físicos como gravedad, energía cinética y dinámica de fluidos, con la intención de reducir ese problema. Además, el modelo puede apoyarse en los conocimientos generales de Gemini -historia, ciencia, lenguaje y cultura- para construir narrativas más consistentes. Durante la presentación aparecieron ejemplos educativos y secuencias tipo «explainer», incluyendo simulaciones en claymation sobre plegamiento de proteínas.
YouTube Shorts y la economía de creadores: el campo de batalla real
La integración de Omni Flash en YouTube Shorts y YouTube Create no es un detalle menor. Google confirmó que Omni Flash estará disponible gratuitamente para usuarios de YouTube Shorts y de la app YouTube Create, lo que convierte a esta herramienta en un recurso potencialmente accesible para millones de creadores latinoamericanos que producen contenido desde el celular y necesitan velocidad, bajo costo y herramientas de edición que no requieran conocimientos técnicos previos.
En una región donde la creación de contenido digital crece de manera acelerada y donde la brecha entre los recursos tecnológicos disponibles y los de los grandes mercados sigue siendo significativa, el acceso gratuito a herramientas de generación de video por IA representa una oportunidad concreta.
Avatares digitales y el problema de la autenticidad
Google también mostró una función que permitirá generar videos utilizando avatares digitales basados en la propia voz e imagen del usuario, aunque aclaró que inicialmente la herramienta estará limitada al uso de la voz propia y que continúan trabajando en los aspectos de seguridad vinculados a la modificación de voces.
El anuncio llega en un momento en que los debates sobre deepfakes y desinformación audiovisual son particularmente sensibles en América Latina, región que ha registrado en los últimos años un aumento sostenido en el uso de contenido sintético con fines de manipulación política y fraude. En ese contexto, Google remarcó que todos los videos creados con Omni incluirán la marca de agua invisible SynthID, diseñada para identificar contenido generado artificialmente.
El movimiento de fondo: de herramientas separadas a plataformas integradas
El lanzamiento de Gemini Omni es también una señal sobre hacia dónde se dirige la industria. Hasta hace poco, las plataformas de IA generativa estaban organizadas por modalidad: una herramienta para texto, otra para imagen, otra para audio y otra para video. Google apuesta ahora por sistemas capaces de integrar todas esas modalidades en una única experiencia, donde la IA no solo genere contenido, sino que pueda entender intención, contexto y continuidad creativa.
Con esta estrategia, la compañía busca competir de frente con OpenAI, Adobe, Runway y ByteDance, todos acelerando sus propios desarrollos en generación de video con IA, en lo que se perfila como uno de los mercados tecnológicos más disputados de los próximos años.
