La llegada de VEO 3 (el último modelo de generación de video por IA de Google DeepMind) ha revolucionado la creación audiovisual al permitir generar clips de alta fidelidad visual (hasta 1080p, con potencial de 4K) y 8 segundos de duración, integrando audio nativo (diálogos, música y efectos) a partir de simples descripciones textuales. Estas capacidades abren enormes posibilidades para contar historias de forma automatizada. Sin embargo, la calidad y coherencia del video dependen directamente de la calidad del prompt: en VEO 3, el prompt funciona como el guion o storyboard para la IA, por lo que mientras más preciso y detallado sea, más fiel será el resultado a la visión del creador. A continuación, se presenta una investigación profunda de las mejores prácticas de prompting orientadas a narrativas, con énfasis en conseguir máxima adherencia al guion, continuidad entre escenas, expresividad visual y control estético, tal como demandaría un profesional audiovisual (por ejemplo, Alejandro Tuzzi) especializado en IA generativa.
Importancia de un Prompt Detallado para Narrativas
VEO 3 ha mejorado significativamente su capacidad de follow prompt, es decir, de seguir instrucciones complejas con gran exactitud. Esto significa que la IA intentará recrear meticulosamente cada detalle que le indiquemos. Un prompt vago produce resultados vagos o inesperados, mientras que un prompt minucioso actúa como un plano preciso que guía al “equipo de filmación virtual”. En narrativas, donde se busca coherencia y fidelidad al guion, este nivel de detalle es crucial. De hecho, expertos resaltan que en VEO 3 “el prompt es tu storyboard”, y recomiendan tratarlo como un miniguion técnico, especificando no solo qué sucede, sino cómo se ve, cómo se encuadra, cómo se mueve la cámara, qué se escucha y qué atmósfera emocional se percibe. En resumen, un prompt completo y bien estructurado equivale a darle al modelo un desglose plano-por-plano de nuestra película, lo que aumenta enormemente la predictibilidad y el control sobre el resultado.
Por ejemplo, comparemos dos formas de describir la misma situación sencilla:
- Prompt básico: “Un hombre contesta un teléfono antiguo.”
- Prompt detallado: “Un traveling inestable con zoom (dolly zoom) pasa de un desenfoque lejano a un primer plano cinematográfico de un hombre desesperado, con gabardina verde gastada, mientras descuelga un teléfono de disco montado en una pared de ladrillo sucio, bañado por el resplandor fantasmagórico de un neón verde. El zoom revela la tensión en su rostro: tiene el ceño fruncido y los ojos muy abiertos al esforzarse por hablar por teléfono. La poca profundidad de campo mantiene enfocados su ceño y el teléfono negro, difuminando el fondo en un mar de luces de neón y sombras indistintas, creando una sensación de urgencia y aislamiento.”
En el segundo prompt hemos añadido detalles de movimiento de cámara (“traveling inestable con zoom”), vestuario y expresión del sujeto (“hombre desesperado… ceño fruncido”), iluminación y color (“resplandor neón verde, sombras”), encuadre (primer plano con poca profundidad de campo) y tono/mood (urgencia, aislamiento). Como señalan las guías oficiales, estos elementos adicionales funcionan como “andamios” que orientan a VEO 3 y “empujan al modelo hacia la escena que queremos crear”. El resultado es un clip mucho más específico y narrativamente intencionado que el obtenido con el prompt escueto.
¿Cuán detallado conviene ser? La respuesta corta es: todo lo detallado que sea necesario para plasmar tu idea. VEO 3 puede procesar prompts bastante extensos y estructurados; de hecho, está diseñado para ello. Se recomienda incluir todos los aspectos relevantes (visuales, sonoros y de estilo) sin escatimar en descripciones claras. Una regla práctica es: si un detalle es importante para tu narrativa (una acción crucial, una expresión facial, un objeto clave, el ambiente emocional, etc.), debe aparecer en el prompt. Creativos expertos enfatizan “deletrear cada detalle, desde el aspecto de los personajes hasta el entorno; detallar cada acción, o de lo contrario VEO 3 inventará algo o dejará al personaje quieto”. En otras palabras, no demos por sentado nada: es preferible indicar “el personaje camina hacia la puerta con decisión” que asumir que la IA lo hará por sí sola. La buena noticia es que VEO 3 aprovechará esa riqueza de detalles gracias a su comprensión avanzada de lenguaje cinematográfico y física del mundo real, generando movimientos y reacciones naturales cuando se lo pedimos.
Elementos Clave de un Prompt Eficaz en VEO 3
Diversas guías coinciden en que un prompt para VEO 3 debería componerse de varios elementos básicos que cubren todos los frentes de la escena. Podemos desglosarlos así:
| Elemento del Prompt | ¿Qué describe? (Rol en la escena) | Ejemplo (incluido en el prompt) |
|---|---|---|
| Sujeto (Subject) | El personaje, animal, objeto o elemento principal de la escena. | “Una anciana pescadora de rostro amable y manos curtidas”. |
| Contexto o Escenario | El entorno o lugar donde ocurre la acción (espacio y tiempo). | “en un muelle solitario al amanecer, con niebla sobre el agua”. |
| Acción | La acción o movimiento que realiza el sujeto (dinamismo de la escena). | “enrolla cuidadosamente sus redes de pescar” (verbos vívidos y específicos). |
| Estilo visual | La estética o estilo cinematográfico/artístico deseado. | “con estética film-noir, alto contraste y sombras marcadas”. |
| Movimiento de cámara | Cómo se mueve o posiciona la cámara (para control cinematográfico). | “toma en picado (high-angle) haciendo zoom lento mientras…”. |
| Composición/Encuadre | El tipo de plano o encuadre y cómo se disponen los elementos en escena. | “plano medio a la altura de los ojos, centrado en la mesa”. |
| Ambiente/Iluminación | La atmósfera, iluminación y tono de la escena (mood visual). | “iluminación cálida de atardecer, tonos dorados y sombras alargadas”. |
| Audio (sonidos y diálogos) | Los elementos sonoros: diálogos hablados, sonidos ambientales, música, efectos. | “Audio: oleaje suave de fondo y gaviotas lejanas; el pescador susurra: ‘Mañana será otro día’.”. |
Estos componentes se pueden intercalar en el prompt como frases separadas o clausulas, idealmente en un orden lógico. Un método recomendado es empezar por lo general y luego afinar en lo específico: por ejemplo, primero presentar el sujeto y el contexto (“Un pescador en un muelle brumoso al amanecer”), luego la acción principal (“recoge sus redes lentamente”), después añadir estilo/tono (“estética documental, atmósfera melancólica”), y finalmente detalles técnicos de cámara/encuadre y audio. También es útil usar frases claras y no demasiado largas, separando ideas complejas en oraciones distintas para no confundir al modelo. VEO 3 interpreta bien las descripciones paso a paso. De hecho, usar puntuación y conectores para indicar secuencia (por ejemplo: “Primero… Luego…”) puede ayudarle a entender una progresión narrativa, siempre y cuando seamos explícitos en cada paso.
Notemos que elementos como Movimiento de cámara, Composición o Ambiente, aunque a veces se consideran “opcionales”, son muy recomendables para lograr un resultado verdaderamente cinematográfico y controlado. Incluir deliberadamente indicaciones de cámara (p.ej. “plano secuencia en steadicam siguiendo al personaje”), tipo de plano (p.ej. “plano detalle de sus manos temblorosas”) o iluminación (p.ej. “luz fría y azulada de amanecer”) permite aprovechar la capacidad de VEO 3 de entender lenguaje fílmico profesional. VEO 3 está entrenado en convenciones cinematográficas, por lo que términos como “paneo de izquierda a derecha” (pan shot), “travelling en seguimiento” (tracking shot), “plano contrapicado”, “plano cenital”, etc., son comprendidos y ejecutados por el modelo. Asimismo, conoce estilos visuales conocidos: uno puede decir “en estilo Pixar”, “como un anime de los 90” o “estética de cómic noir” y la IA adaptará no solo la apariencia visual sino incluso la animación de personajes a ese estilo. Aprovechar estos vocabularios especializados le da al creador un control mucho más fino sobre la estética y la narrativa audiovisual.
¿Prompt Único o Dividir por Escenas?
En producciones narrativas con múltiples momentos o escenas, surge la duda: ¿conviene escribir un solo prompt largo describiendo toda la historia, o generar el video en fragmentos escena por escena? La respuesta depende de la duración y complejidad de la narrativa:
- Límite de duración: Actualmente VEO 3 genera clips de ~8 segundos por prompt (esa es la duración típica con la que trabaja). Para historias más largas que ese intervalo, inevitablemente habrá que dividir en varias tomas o escenas y luego unirlas. Google ha mostrado internamente la capacidad de lograr secuencias de hasta 1–2 minutos coherentes combinando varias generaciones, pero en la práctica común cada prompt es un clip corto. Por ello, lo habitual es planificar la narrativa en escenas breves que luego se concatenan.
- Secuencias dentro de un prompt: VEO 3 sí puede representar múltiples acciones o un mini-relato dentro de esos pocos segundos, siempre que se describan claramente las secuencias en el prompt. De hecho, una novedad de VEO 3 es que “sigue una serie de acciones y escenas con mayor exactitud” que versiones previas. Por ejemplo, se puede escribir: “Un niño corre tras su perro en el jardín. Luego el perro salta una cerca y el niño se detiene, jadeando” y el modelo intentará mostrar esa pequeña secuencia en el clip. El modelo interpretará las oraciones en orden como una progresión temporal. Incluso podemos usar conectores como “después”, “mientras tanto”, o literalmente “corte a:” para indicar un cambio de plano dentro del mismo prompt. De hecho, si ponemos en el prompt algo como “La cámara corta a un plano detalle de sus manos temblorosas”, VEO 3 podría realizar efectivamente un corte a esa toma. Sin embargo, hay que usar esta capacidad con cuidado, ya que demasiados cortes o acciones en un solo prompt pueden generar resultados acelerados o confusos (el modelo podría apresurar la acción para caber en 8 segundos, o introducir cortes adicionales no previstos).
- Dividir en prompts separados: Para escenas distintas o cambios significativos de tiempo/espacio, es generalmente mejor usar prompts separados para cada escena. Esto ofrece más control para afinar cada segmento. Por ejemplo, si nuestra historia tiene una escena en un bosque y otra en una ciudad, es recomendable hacer dos prompts independientes. Igualmente, si la narrativa tiene un comienzo, desarrollo y desenlace bien delimitados, conviene tratarlos por separado (incluso aunque cada uno quepa en 8s), ya que podemos ajustar el estilo y ritmo de cada parte y luego montarlas en postproducción. Un recurso útil es pensar en términos de plano/escena: escribir prompts como si estuviésemos escribiendo las acotaciones de cada plano en un guion técnico.
- Continuidad entre escenas (sin memoria automática):Es crucial entender que VEO 3 no tiene “memoria” entre prompts separados – cada generación es independiente. Si generamos una segunda escena, el modelo no recordará automáticamente lo ocurrido o visto en la primera. Esto significa que la continuidad depende totalmente de nosotros. Hay varias estrategias para lograrla:
- Repetir descripciones clave: La forma más simple es describir de nuevo los elementos importantes en cada prompt de manera idéntica o muy similar a cómo se hizo en la escena previa. Por ejemplo, si en la escena 1 presentamos “John, un hombre de 40 años, cabello castaño corto, chaqueta azul y gafas”, debemos iniciar la escena 2 con la misma descripción de John para que el modelo recree un personaje consistente. Mientras más única y detallada sea la descripción del personaje, mayor probabilidad de que VEO 3 lo genere de forma consistente en escenas sucesivas. Los usuarios expertos incluso crean “fichas de personaje” con el texto exacto del prompt para cada protagonista, reutilizándolo en cada escena.
- Evitar referencias vagas a lo anterior: No sirve de mucho comenzar un nuevo prompt con frases como “el mismo hombre de antes continúa caminando…” sin volver a describirlo, porque VEO 3 no entiende “el mismo de antes” a menos que le demos la referencia explícita. También se aconseja evitar términos temporales/secuenciales ambiguos (“todavía…”, “luego de lo anterior…”, “ahora…”) sin contexto, ya que la IA podría ignorarlos o interpretarlos literalmente de forma errónea. Es mejor decir “John (el hombre de chaqueta azul) ahora camina por…” que decir simplemente “Luego, él camina por…”. En cada nueva escena, reintroduce los personajes y el escenario como si el modelo no supiera nada previo (porque de hecho no lo sabe).
- Utilizar herramientas de continuidad: La plataforma Google AI Flow (entorno de creación de video con VEO 3) ofrece un “Scene Builder” donde puedes encadenar clips y supuestamente mantener consistencia de personajes entre ellos. Esta herramienta permite, por ejemplo, generar una escena y luego seleccionar “Jump to” (saltar a la siguiente) para crear otra toma a continuación usando de base la anterior. En la práctica actual, esta función aún tiene limitaciones – algunos usuarios reportan que al exportar secuencias concatenadas se pierde el audio o aparecen cortes imprevistos. Aun así, es un indicio de que la continuidad multi-escena se está facilitando. Otra capacidad es dar imágenes de referencia: VEO 3 (y especialmente VEO 2 en modo “Ingredients”) permite subir o generar imágenes que sirvan de guía para personajes o escenarios. Por ejemplo, podríamos generar una imagen de John en la escena 1 y luego usarla como referencia para que la escena 2 mantenga exactamente su apariencia. Esta funcionalidad de image-to-video aún está en desarrollo pero es extremadamente prometedora para asegurar continuidad visual.
En síntesis, para narrativas de más de unos segundos, lo recomendado es trabajar escena por escena, planeando cada segmento con su propio prompt detallado, y vigilando la continuidad de forma manual (repitiendo descripciones, manteniendo estilo consistente, etc.). VEO 3 puede seguir una serie de acciones dentro de una misma escena breve con sorprendente precisión, pero no esperemos que recuerde capítulo a capítulo: esa responsabilidad recae en el creador y su ingeniería de prompt.
Control de Elementos Visuales, Movimientos de Cámara y Estilo
Uno de los puntos fuertes de VEO 3 es su comprensión de lenguaje cinematográfico y visual, lo cual nos permite indicarle con bastante precisión cómo queremos que se vea y se mueva la escena. A continuación, destacamos las prácticas clave para explotar este control:
- Movimientos de cámara: Como se mencionó, el modelo reconoce términos comunes de cinematografía. Podemos indicar movimientos como travelling/tracking (seguir a un sujeto en desplazamiento), panorámica (paneo) hacia cierta dirección, tilt (inclinación), zoom in/zoom out, dolly in/out, cámara en mano temblorosa, plano fijo, etc. Por ejemplo: “cámara en mano sigue al personaje corriendo”, o “cámara fija, panorámica lenta de derecha a izquierda mostrando el paisaje”. Estos comandos se entienden bien y resultan en cambios reales en la composición del video. Un caso de uso común es para dar énfasis narrativo: un zoom dramático para resaltar una expresión, o un cambio de ángulo (“vista de pájaro” / plano cenital) para mostrar soledad o vulnerabilidad de un personaje, etc. VEO 3 interpretará estos recursos casi como un director de fotografía lo haría.
- Composición y encuadre: Del mismo modo, especificar el tipo de plano ayuda a que la IA se centre en lo correcto. Términos como “primerísimo primer plano”, “primer plano”, “plano medio”, “plano americano”, “plano general”, “plano panorámico”, “toma aérea”, “plano secuencia”, etc., añaden instrucciones valiosas. Un ejemplo: “Comienza en un plano general de la ciudad al anochecer, luego cambia a un plano medio de la protagonista en su balcón”. En pruebas, VEO 3 suele obedecer estas indicaciones, encuadrando tal como se pidió. Con composición también nos referimos a la distribución de elementos: podemos decir “en cuadro solo se ven sus manos y la carta que sostiene” o “escorzo: vemos al asesino desenfocado en primer término y a la víctima al fondo enfocada”. Cuanto más le especifiquemos la composición, menos decisiones arbitrarias tomará la IA.
- Estilo visual y color: VEO 3 por defecto genera un estilo de video fotorrealista cinematográfico bastante neutro (similar a un comercial bien producido). Para ajustar esto, debemos incluir referencias de estilo. Podemos mencionar géneros (“estilo terror gótico”, “como spaghetti-western”), directores o obras (“estética a lo Wes Anderson – simétrica y colorida”, “como un episodio de Black Mirror”), técnicas/artes (“estilo animación stop-motion de plastilina (claymation)”, “estilo animé clásico, dibujo 2D”), o incluso épocas y medios (“look retro de video VHS de los 80”, “paleta de acuarelas pastel”). Incluir “En el estilo de [X]…” al inicio del prompt es una fórmula eficaz. Esto no solo modifica la apariencia (colores, texturas), sino que a veces altera cómo se mueven los personajes acorde al estilo (por ejemplo, en estilo animación LEGO los movimientos pueden verse entrecortados como stop-motion, en estilo anime puede agregar cierta exageración, etc.). Para mantener coherencia narrativa, es importante decidir un estilo global (a menos que el cambio de estilo sea deliberado) y usarlo consistentemente en todos los prompts. También se puede proporcionar una imagen de referencia de estilo: VEO 3 permite ingresar una imagen cuyo estilo visual será replicado en el video (por ejemplo, dar una pintura famosa si queremos ese acabado estético). Esto es muy útil para continuidad visual en todos los clips de una historia.
- Iluminación y ambientación: No subestimemos el poder de describir la iluminación, colores y atmósfera. La luz sugiere la hora del día, el clima emocional y dirige la atención. VEO 3 responde bien a indicaciones como “iluminación tenue de velas, sombras danzantes”, “luz dura del mediodía, colores saturados”, “paleta desaturada, neblina azulada cubriendo la escena”, etc. Estos matices ayudan a transmitir la emoción del relato. Por ejemplo, “tonos fríos y azulados de madrugada” predisponen al espectador a la melancolía o al misterio, mientras “cálido resplandor dorado de la tarde” evoca confort o nostalgia. Asimismo, si la escena requiere cierto efecto visual (como lens flare del sol, grano de película vieja, niebla, lluvia, humo), conviene mencionarlo. VEO 3 tiene conocimiento de fenómenos físicos, por lo que si decimos “polvo moteando la luz del almacén abandonado” o “lluvia torrencial golpeando la ventana”, generará esas dinámicas de forma realista.
- Acciones y actuación: Para conseguir fidelidad narrativa, las acciones deben describirse con claridad y verbos precisos. En vez de “el hombre interactúa con un objeto”, es mejor “el hombre saca lentamente una carta de su chaqueta y la quema con el encendedor”. Los verbos específicos (saca, arroja, acaricia, tiembla, susurra, etc.) y los adverbios que marcan intención o emoción (lentamente, con furia, titubeando, con delicadeza) le dan a la IA pautas para animar a los personajes de forma coherente con la historia. VEO 3 también trata de simular expresiones y acting: si decimos “con una sonrisa forzada mientras se le llenan los ojos de lágrimas”, el modelo intentará reflejarlo en la cara del personaje. Estos matices de actuación son fundamentales para continuidad emocional (ver siguiente sección). Un punto a tener en cuenta es que la gestualidad no indicada puede dar lugar a interpretaciones indeseadas: por ejemplo, en una prueba, una mujer tapó su nariz tras una línea de diálogo humorística, lo que el creador no quería porque implicaba algo negativo no intencionado. La solución fue añadir explícitamente en el prompt que la mujer no hace ese gesto. Esto ilustra que, en prompts narrativos, a veces hay que indicar tanto lo que ocurre como lo que no debe ocurrir (p.ej., “ella se ríe pero no retrocede ni se tapa la nariz”). Las frases en negativo (negaciones) sí funcionan con VEO 3.
En resumen, VEO 3 entiende sorprendentemente bien las indicaciones visuales y de movimiento dignas de un guion técnico profesional. La recomendación es aprovechar ese entendimiento: hablarle a la IA como le hablarías a un equipo de rodaje, especificando encuadres, movimientos de cámara, vestuario, decorados, iluminación y dinámicas, para lograr que la escena imaginada se plasme con precisión. Cuanto más controlemos estos elementos en el prompt, menos decisiones al azar tomará el modelo por su cuenta.
Diálogos, Audio Ambiente y Sonido en VEO 3
A diferencia de generaciones anteriores de video por IA, VEO 3 genera audio de forma nativa y sincronizada, lo que incluye voces de personajes (con movimiento de labios coherente), sonidos del entorno y música de fondo. Esto es revolucionario para narrativa, pero también añade otra capa de complejidad al prompting, ya que ahora debemos indicarle a la IA qué se debe escuchar. Las mejores prácticas en este aspecto son:
- Incluir la pista de audio en el prompt: Lo ideal es dedicar una parte del prompt a describir el audio, normalmente separándolo del resto con un formato claro. Un convenio muy utilizado es escribir “Audio:” seguido de la descripción sonora. Por ejemplo: “Audio: suave música de piano de fondo, con sonido de lluvia contra la ventana”. Este prefijo Audio: le deja claro al modelo que vamos a detallar el sonido ambiente o musical por separado del video.
- Diálogos de personajes: Si queremos que los personajes hablen, debemos especificarlo explícitamente. Hay dos formas de hacerlo:
- Diálogo explícito: Escribir literalmente la línea de diálogo dentro del prompt. Por ejemplo: “El detective murmura: ‘Algo no encaja aquí.’”. Al usar dos puntos seguido de la frase, VEO 3 pondrá esas palabras en boca del personaje (con una voz generada). Esta técnica nos da control exacto sobre el guion hablado, pero debemos tener en cuenta la duración: en ~8 segundos no cabe un parlamento muy largo. Se recomienda mantener los diálogos breves, una o dos frases cortas como máximo. Si intentamos meter un monólogo extenso, el resultado será que el personaje hable atropellado e inverosímilmente rápido para intentar decirlo todo, o que directamente no lo diga completo. Un ejemplo de mal resultado fue: “You have given me a really long prompt, and I have to speak very quickly…”, donde el personaje hablaba a toda prisa y de forma poco natural. Por el contrario, tampoco conviene un diálogo excesivamente corto o ambiguo; si ponemos algo mínimo como ‘Hola’ sin contexto, la IA a veces rellena con jerga sin sentido o deja silencios incómodos. Balance y claridad son clave: la frase debe sonar como algo que alguien podría decir en pocos segundos, acorde a la escena.Diálogo implícito: Indicar que ocurre un diálogo sin escribir las palabras exactas, dejando que la IA lo improvise. Por ejemplo: “Dos personas discuten acaloradamente sobre un secreto.” o “Una cómica de stand-up cuenta un chiste incómodo en un festival de música”. En estos casos, VEO 3 generará algún diálogo coherente con la situación. Esta opción puede ser útil si no nos interesa controlar cada palabra o queremos ver qué propone la IA. Sorprendentemente, el modelo puede soltar líneas ingeniosas; por ejemplo, a un stand-up en un prompt implícito le inventó un chiste completo sobre festivales. Si nos gusta lo que genera, podríamos incluso transcribirlo y usarlo en una iteración posterior como diálogo explícito. Precaución: en español, es posible que la improvisación de la IA sea menos refinada (los ejemplos de chistes suelen estar en inglés); si el resultado no es bueno, quizá convenga guionizarlo explícitamente.
En cualquier caso, cuando hay más de un personaje hablando, puede suceder que VEO 3 confunda quién dice qué, sobre todo si ambos están igual de presentes en la escena. Para evitarlo, es recomendable añadir aclaraciones en el prompt mismo sobre quién pronuncia cada línea. Ejemplo: “La mujer rubia dice: ‘Estoy llegando al límite.’ El hombre de gafas responde: ‘Todos tenemos secretos.’”. Aquí identificamos a cada hablante por una característica, ayudando a la IA a asignar correctamente las voces. Si simplemente pusiéramos “—Estoy llegando al límite —dijo ella. —Todos tenemos secretos —respondió él.”, puede que invierta roles o haga un lío. Mejor ser redundante en quién habla.
- Evitar subtítulos indeseados: Un efecto secundario observado es que VEO 3 a veces incrusta subtítulos visuales en el video (texto escrito en pantalla) de lo que se dice, sobre todo si detecta diálogo, probablemente porque fue entrenado con muchos videos que tenían subtítulos quemados. Estos subtítulos suelen salir mal escritos o feos, arruinando la estética. Para prevenir esto, hay dos trucos:
- No usar comillas ni guiones de diálogo en el prompt. Es preferible el formato
Personaje dice: Holaen vez dePersonaje dice: "Hola". Las comillas pueden hacer que interprete que es texto sobreimpreso. - Usar negación explícita: Incluir al final algo como “(no subtitles)” o en español “(sin subtítulos)”. De hecho, repetido enfáticamente: “No subtitles. ¡No subtítulos!”, ya que las negaciones directas suelen funcionar bien para indicarle al modelo que no haga cierta cosa. En muchos ejemplos, con solo poner (no subtitles) en el prompt se eliminaron esos textos fantasmas.
- No usar comillas ni guiones de diálogo en el prompt. Es preferible el formato
- Sonido ambiente y efectos: Tal como con lo visual, si no describimos la atmósfera sonora, la IA intentará inferirla. A veces acierta (por ejemplo, pone ruido de tráfico de ciudad si ve una calle urbana). Pero en otros casos puede agregar sonidos fuera de lugar. Un ejemplo común: por alguna razón, VEO 3 tiende a meter risas de público o audiencia en vivo de fondo aunque la escena no lo justifique. Esto ocurrió en una escena de monólogo cómico en un festival: la IA puso risas como de sitcom, que no pegaban con un show al aire libre. La solución fue, de nuevo, ser explícito: el prompt ajustado añadió “sonidos lejanos de bandas, ruido de multitud disperso, ambiente de festival al aire libre” y así las risas de estudio desaparecieron. Lección: siempre que sea relevante, especificar el sonido ambiente: si es un bosque, mencionar pájaros, viento entre árboles; si es una oficina, quizás un murmullo lejano de gente tecleando o una fotocopiadora; si estamos en silencio total, aclararlo (“silencio sepulcral, ningún sonido aparte de…”). Esto no solo evita sonidos anómalos, sino que añade inmersión y refuerza el tono narrativo. Por ejemplo, en una escena tensa podríamos poner “Audio: silencio tenso, apenas el tic-tac de un reloj y la respiración contenida de ella” – y obtendremos justo esa atmósfera.
- Música: De igual forma, indicar si queremos música de fondo y de qué tipo. VEO 3 puede generar música instrumental acorde al mood. Podemos ser específicos: “música incidental de cuerdas, estilo thriller, aumentando de intensidad” o genéricos: “una suave melodía de piano”. Si no mencionamos música, a veces pondrá algo por su cuenta o nada. Mejor controlarlo si la música es parte de la narrativa (por ejemplo, un montaje emotivo con cierta canción vibe). También podemos negarla (“no music”) si preferimos solo sonidos diegéticos. En nuestros prompts en español, podríamos decir “suena una música jazz lenta de fondo” y VEO 3 debería captarlo (posiblemente reconocerá la palabra “música”). No obstante, la palabra clave Audio: seguida de descripción en español funciona bien. En los ejemplos en inglés, muchas veces ponen “Audio: [descripción]. A light orchestral score…”. Traducido: “Audio: Suena una partitura orquestal ligera con flautas, de ritmo optimista…”, esto debería guiar al modelo igualmente.
En suma, para lograr continuidad narrativa también en el plano sonoro, debemos escribir lo que se dice y lo que se oye igual de meticulosamente que lo que se ve. Un prompt completo abarca vista y oído, creando así una experiencia realmente cinematográfica. La ventaja es que VEO 3 sincronizará labios, ruidos y música automáticamente una vez le indiquemos qué queremos; pero la elección de esos elementos es nuestra. Un último consejo: siempre revisar el audio generado junto con el video; a veces pequeños ajustes en la descripción de audio (una palabra como “suave” vs “intensa”, o añadir “sin risas de fondo”) cambian drásticamente la sensación de la escena.
Recomendaciones para Storytelling y Continuidad Emocional
Lograr que un video generado cuente una historia fluida y mantenga su carga emocional de principio a fin es el objetivo máximo de un creador narrativo. Con VEO 3, esto es posible siguiendo varias de las pautas ya mencionadas y algunas adicionales:
- Planificación de la historia: Antes de lanzarse a escribir prompts, es útil planificar la narrativa como lo haríamos en cualquier producción. Esto implica identificar el inicio, nudo y desenlace de la historia, los puntos clave que deben mostrarse, y qué emociones deben transmitirse en cada etapa. Algunos expertos sugieren hacer storyboards simples o listas de escenas previstas incluso tratándose de video IA. Por ejemplo, anotar: Escena 1 – Presentación (personaje solo, contexto mostrado); Escena 2 – Conflicto (discusión acalorada); Escena 3 – Resolución (reconciliación al atardecer). Esta claridad previa nos ayudará a escribir cada prompt enfocado en lo que debe lograr narrativamente.
- Estructura narrativa en los prompts: Podemos reflejar esa estructura en los propios prompts. Una técnica recomendada es indicar las transiciones narrativas dentro del prompt o entre prompts. Si buscamos que VEO 3 mismo genere una secuencia con principio, medio y fin en un solo clip corto, podríamos usar oraciones secuenciales: “Primero ocurre X… Luego vemos Y… Finalmente, Z…”. Esto, combinado con conectores temporales claros, da al modelo la idea de un arco. Sin embargo, como discutimos, para historias más largas es mejor separar en prompts por escena. En ese caso, podemos asegurarnos de que el final de cada escena apunte al inicio de la siguiente. Por ejemplo, si la Escena 1 termina con un personaje abriendo una puerta, podríamos iniciar el prompt de Escena 2 mencionando que “El mismo personaje cruza la puerta hacia…” de manera consistente. También se recomienda mantener una continuidad de estilo y tono a lo largo de las escenas: si la historia es, digamos, un drama íntimo, usar siempre iluminación suave, cámara estable y música sutil en todas las escenas, a menos que haya un cambio deliberado de tono (por ejemplo, una escena onírica podría justificadamente tener un estilo distinto). Mantener estos elementos constantes contribuirá a una continuidad emocional.
- Consistencia de personajes y objetos clave: Ya abordamos la importancia de describir reiteradamente a los personajes para que luzcan iguales en cada toma. Esto extiende a cualquier objeto o elemento narrativo importante: si en la historia hay, por ejemplo, un amuleto rojo que pasa de mano en mano, conviene siempre llamarlo igual (“el amuleto de piedra roja con inscripciones”) en todos los prompts donde aparezca, garantizando que VEO 3 lo represente coherentemente. Además, aprovechar la función de referencia de imagen si está disponible: podríamos generar un primer plano del amuleto en un prompt y luego usarlo como referencia visual en escenas posteriores para mayor fidelidad. En cuanto a personajes, si no usamos imágenes de referencia externas, la repetición textual es nuestra herramienta. Hay que aceptar que puede haber pequeñas variaciones (en DataCamp reportaron que su personaje mantenía cara y peinado pero cambió de ropa mágicamente entre escenas). Para mitigar eso, podríamos incluso especificar vestimenta fija: “viste la misma chaqueta azul que antes”.
- Flujo de emociones: En narrativa, quizás más importante que la continuidad física es la continuidad emocional – cómo evoluciona el estado anímico de los personajes y la atmósfera. VEO 3 no “sabe” lo que pasó en la escena anterior, pero nosotros podemos insinuarlo a través de descripciones emocionales. Por ejemplo, si la Escena 1 terminó con una pelea, la Escena 2 podría comenzar describiendo al personaje “todavía con el rostro contraído de enojo y decepción” o “limpiándose una lágrima furtiva, intentando recomponerse”. Así, la IA arrancará la escena ya mostrando ese estado, creando la ilusión de continuidad emocional. Igualmente, la música y el ambiente sonoro deben acompañar: no pondríamos una música alegre al instante siguiente de una tragedia (a menos que sea intencional). Por lo tanto, ajustar el score o sonido ambiental en cada prompt para reflejar el mood corriente de la historia. Si se quiere hacer un crecendo emocional, se puede indicarlo gradualmente: ej. Escena 1 “Audio: silencio tenso”, Escena 2 “Audio: zumbido inquietante creciente”, Escena 3 “Audio: música dramática al tope”. De esta forma, aunque las escenas sean generadas por separado, el espectador percibirá un hilo emocional continuo.
- Revisar y refinar iterativamente: Crear narrativa con IA suele requerir prueba y error. Es recomendable iterar: generar una escena, ver si el tono y acciones se alinean con la visión, y si no, ajustar el prompt. En el ejemplo del anuncio del ascensor, el primer intento tuvo detalles no deseados (miradas de extras, gestos equívocos, subtítulos mal escritos). El creador hizo unas cinco iteraciones refinando el prompt hasta lograr la versión adecuada. Esto es normal. Lo importante es aprender de cada resultado: si algo falla en la continuidad (p. ej., de repente el personaje aparece en otro lugar), probablemente faltó contexto en el prompt siguiente; si la expresividad no convence (p. ej., actuación muy plana), quizá debamos añadir indicaciones emocionales más fuertes (“visiblemente angustiado”, “eufórico”, “con voz temblorosa”, etc.). Pensemos que, al igual que dirigir actores reales, dirigir a la IA requiere comunicarle claramente la intención tras cada acción.
- Controlar ritmo y transiciones: Aunque VEO 3 opera a nivel de clip individual, nosotros como narradores controlamos el ritmo global al decidir la duración y transición entre clips. Podemos pedirle a la IA, dentro de un clip, que la cámara se detenga un momento en algo (p.ej. “la cámara se queda fija unos instantes en la mirada de ella, mostrando silencio incómodo”), lo cual en pantalla se traduce en una pausa dramática. También podemos simular transiciones: por ejemplo, terminar una escena con “la imagen se difumina lentamente” para luego iniciar la siguiente quizá con “Entra desde negro a…”. No está garantizado que genere un fade-out perfecto, pero se puede intentar. Alternativamente, podemos simplemente editar esas transiciones luego (ver sección técnica). Lo esencial es asegurarse de que cada escena comience y termine de manera lógica. Un recurso simple: encadenar acciones. Si la última imagen de la escena 1 es un personaje abriendo una puerta, la primera de la escena 2 podría ser ese personaje cruzando el umbral desde el otro lado. Si terminamos escena con un primer plano de un objeto, quizá iniciar la siguiente con ese objeto en escena para conectar.
En definitiva, el storytelling con VEO 3 se beneficia de un enfoque metódico y detallista: planificar, guionizar el prompt casi como un libreto, e infundir en cada línea la intención narrativa y emocional deseada. Alejandro Tuzzi (u otros cineastas en IA) buscarán que cada movimiento de cámara, cada expresión y cada sonido estén al servicio de la historia; esto es viable siempre que le indiquemos al modelo con precisión esa intención en el prompt. Podemos concluir que la IA es un potente “asistente de dirección”, pero nosotros seguimos siendo los directores: marcamos cada toma para que la película mental que tenemos cobre vida en la pantalla de forma fiel.
Consideraciones Técnicas de VEO 3 (Resolución, Duración, Transiciones y Postproducción)
Para cerrar, conviene repasar algunos aspectos técnicos del modelo que impactan en el flujo de trabajo y calidad final de las producciones narrativas:
- Resolución y calidad de imagen: VEO 3 genera videos de hasta 1080p (Full HD) de resolución de forma predeterminada. Esto ya supone un salto enorme frente a modelos previos que apenas alcanzaban 480p o 720p con artefactos. En entornos de investigación, Google ha mostrado que VEO 3 puede incluso llegar a 4K, pero esa opción probablemente requiera mayor potencia de cómputo y planes avanzados (por ejemplo, el plan Ultra de Google AI). Para la mayoría de usuarios (incluso profesionales), 1080p es la salida estándar actualmente. Esto es suficiente para la mayoría de proyectos web y prototipos narrativos. Sin embargo, si se necesita ultra-alta definición, es bueno saber que el modelo tiene esa capacidad latente; posiblemente en un futuro cercano se habilite más ampliamente. En términos de estilo visual, la calidad lograda es “fidelidad cinematográfica”: VEO 3 produce detalles nítidos, movimientos suaves y coherencia en la iluminación y continuidad espacial dentro de cada clip. Aun así, pueden aparecer artefactos menores en algunos frames (ej: un objeto que se deforma momentáneamente). Esto es normal en difusión de video; afortunadamente, se ha minimizado mucho gracias a entrenar con criterios de consistencia (penalizando al modelo si, por ejemplo, la ropa de un personaje cambia mágicamente entre fotogramas). En general, la imagen es muy estable: no se perciben tantos parpadeos o flicker frame a frame, lo cual era un problema en modelos anteriores.
- Duración y extensión de video: Como mencionamos, la duración típica por generación es corta (alrededor de 8 segundos). Esto se debe a limitaciones computacionales y de arquitectura: generar video es costoso, y mantener coherencia más allá de cierta cantidad de frames era difícil. VEO 3 ya duplicó la duración respecto a su antecesor (VEO 2 generaba ~4s). En Google I/O 2025 se destacó la meta de videos más largos con narrativa consistente. De hecho, internamente lograron hasta 2 minutos combinando la generación continua. En la práctica, la herramienta Flow permite encadenar clips para lograr algo más largo. Así que, si necesitamos un cortometraje de 1 minuto, el proceso será generar, por ejemplo, 8 escenas de ~7.5s cada una y luego unirlas. No hay problema en hacerlo así; simplemente hay que cuidar la continuidad manualmente como se discutió. Otra consideración: al unir varios clips, podríamos querer transiciones suaves (fades, cortes limpios). Actualmente, VEO 3 no ofrece “transiciones automáticas” entre clips generados (salvo la ya mencionada función de First & Last frame que rellena entre dos imágenes dadas, algo más orientado a interpolación creativa que a montaje narrativo tradicional). Por tanto, la recomendación es planificar las uniones: decidir dónde cortar cada clip para que el siguiente inicie sin sobresaltos. Por ejemplo, terminar una escena antes de un movimiento abrupto, y arrancar la siguiente continuando la acción, o usar el método clásico: corte en acción (match cut) para disimular la unión.
- Transiciones de frames y consistencia visual: Dentro de un mismo clip, VEO 3 tiende a mantener consistencia de un frame al siguiente gracias a su entrenamiento (ej. conservar objetos, continuidad de movimiento). Aun así, si pedimos cambios drásticos dentro de un solo prompt (p. ej. “de repente es de noche” en mitad del prompt), podría verse brusco. Es más seguro hacer ese cambio en un nuevo clip con transición manual. Si se quisiera un efecto de transición dentro de un clip (como un fundido a negro), se puede intentar describirlo en el prompt final: “la escena se oscurece lentamente hasta quedar negra” – el resultado varía. En general, las herramientas de edición tradicionales siguen siendo útiles: uno puede generar la escena A y la B, y luego en un editor añadir un fundido entre ambas. Este tipo de postproducción sencilla complementa a la IA.
- Tiempo de generación y iteraciones: Generar video con IA no es instantáneo; cada clip de varios segundos puede tardar desde decenas de segundos hasta minutos, dependiendo de la infraestructura. Además, es posible que necesitemos iterar varias veces un mismo prompt hasta obtener un resultado óptimo. Por eso, conviene presupuestar tiempo y/o créditos de cómputo suficientes para experimentar. Los expertos señalan que “tomas un minuto en lograr el 90% de tu visión y una hora en ajustar el último 10%”, y que rara vez se obtiene exactamente lo deseado sin ninguna edición. Esto es normal: la IA acelera increíblemente la producción inicial (lo grueso de la escena), pero los toques finales aún pueden requerir trabajo manual. No hay que desanimarse si el primer resultado no es perfecto; refinar es parte del proceso creativo.
- Edición posterior (post) sugerida: Dado lo anterior, es buena práctica planear una breve sesión de edición tras obtener los clips de VEO 3. ¿Qué tipo de ediciones son típicas?
- Montaje y transiciones: Unir las escenas en el orden correcto, recortar sobrantes, añadir fundidos o cortes al ritmo adecuado. Por ejemplo, en el caso del elevator pitch, el creador llevó el video a DaVinci Resolve para añadir fundidos sutiles y el timing exacto al final.
- Corrección de color o brillo: Si bien VEO 3 ofrece una estética consistente, se puede querer ajustar el color para que todas las escenas casen perfectamente (sobre todo si se generaron por separado y quizá alguna tiene tono ligeramente distinto). Una corrección de color unificando la paleta dará mayor cohesión.
- Audio mixing: Posiblemente ajustar niveles de audio; a veces la música generada puede salir un poco baja o alta, o ciertos efectos sonoros necesitan equilibrarse. Es sencillo aumentar el volumen de una parte o agregar un efecto de sonido extra en edición si algo faltó.
- Eliminar imperfecciones: Si se coló algún frame raro o un subtítulo indeseado, se puede pintar o cortar. Por ejemplo, si pese a todo aparece una palabra ilegible en pantalla, conviene reemplazar ese frame o taparla en post (o regenerar la escena con la instrucción de no texto).
- Insertar elementos gráficos o texto real: Para producciones profesionales, es probable que queramos añadir el logo, títulos, créditos o subtítulos reales. Es mejor hacerlo en postproducción que pedírselo a la IA (ya vimos que la IA apesta en texto legible en pantalla). Así garantizamos calidad y exactitud (ej: tipografía corporativa correcta en un anuncio).
- Stitching de audio multi-escena: Un detalle mencionado: la herramienta Scene Builder de Flow al exportar perdía el audio. Si trabajamos con clips separados, tendremos múltiples archivos de audio; al juntarlos, quizás haya que fundir el audio entre escenas para que no haya saltos. Un pequeño cross-fade de sonido ambiente ayuda a que no se note el corte sonoro entre clip y clip.
Resumiendo este apartado técnico: VEO 3 ofrece una base de video+audio de alta calidad que cubre el grueso del trabajo creativo, pero el resultado óptimo generalmente se alcanza con una combinación de prompting cuidadoso + edición ligera posterior. Para un profesional audiovisual, esto no dista mucho de la realidad tradicional: se rueda y luego se pasa a postproducción para pulir. La diferencia es que ahora “rodamos” escribiendo texto y obtenemos material en minutos. Aun así, reservar un poco de tiempo para editar esos minutos generados puede marcar la diferencia entre un buen video y uno excelente que realmente “no parece hecho por IA”.
Por último, mencionar que a nivel técnico es importante mantener expectativas realistas: aunque VEO 3 es lo más avanzado a 2025, hay limitaciones inherentes (p.ej., no esperar escenas multitudinarias hipercomplejas sin errores, o texto legible, etc.). Con las prácticas aquí descritas, minimizamos esas debilidades y maximizamos las fortalezas del modelo.
Conclusiones y Recomendaciones Finales
En conclusión, la clave para lograr máxima adherencia al guion, precisión en movimientos, fidelidad narrativa, gran expresividad visual y control estético con VEO 3 es tratar el prompt como una herramienta de dirección cinematográfica por escrito. Para un profesional audiovisual exigente, las mejores prácticas son:
- Guionizar el prompt con todo detalle: Incluir sujeto, contexto, acción, estilo, encuadre, movimiento de cámara, ambiente y audio. No dejar aspectos importantes sin describir; el modelo seguirá nuestras indicaciones fielmente dentro de sus capacidades.
- Cada elemento narrativo crítico (personajes, objetos, emociones) debe estar pintado con palabras.
- Dividir la historia en escenas manejables: Aprovechar la alta coherencia de VEO 3 en clips cortos, pero planificar escenas separadas para narrativas largas, reintroduciendo detalles en cada prompt para mantener continuidad (especialmente porque no hay memoria entre generaciones). Usar herramientas como Scene Builder o referencias de imagen cuando sea posible para ayudar en la consistencia visual.
- Aprovechar la comprensión audiovisual del modelo: Dar instrucciones de cámara (panorámicas, zooms, planos), de estilo (referencias artísticas, géneros) y de sonido (diálogos con “:” y ambientación auditiva). VEO 3 responde bien al lenguaje propio del cine, lo que nos permite orquestar la escena con precisión profesional.
- Mantener la continuidad emocional y narrativa: Asegurar que la atmósfera, el ritmo y las emociones fluyan de una escena a otra. Esto implica planificar la progresión de la historia (storyboard mental), repetir descripciones consistentes y ajustar música/sonido para que acompañe la emoción de cada segmento.
- Iterar y refinar: No conformarse con la primera salida; analizar el resultado y pulir el prompt en las partes débiles. Muchas veces pequeños ajustes (añadir un adjetivo, eliminar una ambigüedad) corrigen problemas de adherencia narrativa o de puesta en escena.
- Esto lleva poco tiempo comparado con hacerlo todo manualmente, y eleva la calidad final asegurando que el video cumpla exactamente la visión buscada.
En suma, VEO 3 se perfila como una herramienta potentísima para storytellers digitales y cineastas de la nueva era. Permite materializar ideas en video con una fidelidad antes inimaginable, pero requiere un cambio de chip: el texto se convierte en nuestro lenguaje de dirección. Siguiendo las mejores prácticas descritas –muchas de ellas nacidas de la experimentación de usuarios expertos en estos primeros meses del modelo–, es posible conseguir que la IA genere videos narrativos cohesivos, emocionantes y estéticamente controlados, donde cada plano y cada frase se alineen con la intención del creador. Como toda nueva tecnología, hay una curva de aprendizaje, pero armados con estas técnicas, profesionales como Alejandro Tuzzi pueden llevar las riendas creativas y lograr que VEO 3 adhiera al guion casi como si de un equipo humano se tratase. La convergencia entre indicaciones humanas precisas y la potente generación audiovisual de VEO 3 promete un futuro en el que contar historias en video será más rápido y accesible que nunca, sin sacrificar la visión artística ni la calidad narrativa. ¡Manos a la obra con los prompts, que las posibilidades son infinitas!