Kling 3.0 (familia “3.0 Series”) se consolida como un stack orientado a storytelling estructurado: admite clips de 3 a 15 segundos, multi‑shot (hasta ~6 cortes en un solo render, según integración), referencias reutilizables (“elements”) para consistencia, Start & End Frames (primer/último fotograma como “keyframes” visuales) y audio nativo (diálogo + FX + ambiente, con lip‑sync en flujos que lo soportan).
En la práctica, los tres “sabores” relevantes se comportan como un sistema de roles: – Kling 3.0 (V3) rinde mejor cuando querés “dirigir” desde texto con lenguaje cinematográfico y/o anclar con un start frame (especialmente para coherencia de entorno y continuidad visual).
– Omni (O3 / Video 3.0 Omni) es el “hub” de control por referencias: soporta video‑to‑video (p. ej., “Reference V2V”) para preservar lenguaje de cámara/movimiento de un video base, además de flujos con elements y multi‑shot para continuidad en escenas con más carga de “referencias visuales” que de texto.
– Motion Control 3.0 es el brazo “mocap/performance”: transfiere movimiento desde un video de referencia a un personaje definido por imagen; agrega controles como character_orientation (priorizar orientación del video para acciones complejas o de la imagen para movimientos de cámara) y element binding para reforzar identidad facial durante el movimiento.
El salto cualitativo no viene solo de “prompts más largos”, sino de adoptar un enfoque de producción: pre‑vis (storyboard + assets), dirección por toma (multi‑shot), controles por keyframe (Start/End), y control de performance (Motion Control). Estas tácticas reducen los fallos típicos de video generativo: deriva de identidad, flicker, warping y pérdida de coherencia temporal, que en difusión suelen aparecer por el trade‑off entre identidad vs movimiento y la dificultad inherente de la consistencia temporal.
Modelos: capacidades, fortalezas, limitaciones y casos de uso
Kling se describe en guías públicas como un modelo de generación de video desarrollado por el equipo de grandes modelos de Kuaishou, con capacidades como Text‑to‑Video, Image‑to‑Video, control de cámara y edición por keyframes (según guías).
Comparativa sintética de capacidades
| Modelo (familia 3.0) | Entradas principales | Controles clave | Fortalezas | Limitaciones típicas | Casos de uso “best fit” |
| Kling 3.0 (V3) | Texto; opcional imagen inicial (start frame) según flujo; multi‑shot por prompts | Multi‑shot; elements; Start & End Frames; audio nativo; duración 3–15s; aspect ratio | Muy fuerte para “dirección” por toma: encuadres, cámara, ritmo multi‑shot; buen balance control/velocidad en Standard vs Pro | Si la escena exige referencias complejas o reemplazos sobre video existente, O3 suele dar más control; en escenas con mucha acción puede aparecer warping/flicker (aunque mejorado) | Cinemáticas prompt‑driven, ads, piezas cortas con control por toma, secuencias con coherencia desde un start frame |
| Omni (O3 / Video 3.0 Omni) | Texto + referencias (imágenes, elements); video‑to‑video (Reference/Edit) | Referencias sobre video; multi‑shot; aspect_ratio auto o fijo; elements y reemplazos con @Element/@Image/@Video | Continuidad fuerte cuando hay “material base” (video referencia) o cuando necesitás preservar lenguaje de cámara/movimiento; diseñado para flujos reference‑heavy | Gestión de límites de referencias (p. ej., topes cuando hay video); exige disciplina de assets para evitar drift | Continuidad de escenas (V2V), reemplazo de personajes/objetos manteniendo cámara, “next shot” basado en referencia |
| Motion Control 3.0 | Imagen de personaje + video de movimiento; prompt opcional; element facial opcional | character_orientation (image vs video); keep_original_sound; element binding facial; límites de duración por orientación | Transferencia de performance: movimientos complejos, acting, baile; se apoya en referencia real para coherencia de movimiento | Si la pose/encuadre entre imagen y video no “matchea”, aparecen deformaciones; requiere cuerpo/cara visibles sin oclusión; duración depende de orientación | Mocap “sin traje”, UGC con actuación creíble, animación de personajes (realistas o estilizados) con movimiento guiado por video |
Parámetros y límites operacionales que importan en 3.0
En integraciones con schema explícito, los parámetros críticos de 3.0 incluyen: duration (3–15s), aspect_ratio (16:9, 9:16, 1:1), shot_type (customize / intelligent) para multi‑shot, multi_prompt por toma, negative_prompt, y cfg_scale (float; default 0.5).
En O3 Pro se documenta explícitamente que el modo profesional genera 1080P y soporta duración extendida 3–15s con audio nativo.
En Motion Control, el input exige que el personaje tenga proporciones claras y sin oclusiones, y define límites de duración del video de referencia según character_orientation: hasta 10s si se prioriza orientación de la imagen (“image”) y hasta 30s si se prioriza el video (“video”).
Prompting avanzado para video de alta calidad
Esta sección combina (a) técnicas de prompteo y (b) prompts listos para uso, cumpliendo la restricción de que todos los prompts y ejemplos están en inglés.
Estructura recomendada de prompt (transferible a Kling)
Una forma robusta de dirigir video generativo es descomponer el prompt en componentes: Subject → Action → Scene/Context → Camera Angles → Camera Movements → Lens/Optics → Visual Style (lighting/mood) → Temporal elements → Audio (si aplica). Esta “anatomía” está explicitada en guías modernas de prompting para video, y coincide con cómo Kling interpreta lenguaje cinematográfico (p. ej., tracking shot, close‑up, rack focus, etc.).
La clave en Kling 3.0 para calidad y control no es “pedir más cosas”, sino: – Una toma = un objetivo: una acción principal + un movimiento de cámara dominante. (Agregar muchas acciones simultáneas aumenta fallos de coherencia en modelos de video por la dificultad de consistencia temporal).
– Cinematografía explícita: usar vocabulario de cámara (dolly in/out, pan, tilt, tracking shot, macro close‑up, POV, shot‑reverse‑shot) para forzar composición y energía.
– Coherencia primero, “épica” después: los fallos más caros vienen de drift de identidad o set; evitar contradicciones estilísticas y cambios bruscos sin keyframes (Start/End) o referencias.
Multi‑shot prompting: patrón mínimo viable
En integraciones donde multi‑shot se expresa como una lista multi_prompt (cada item con prompt + duration), el modelo puede dividir el clip por tomas y mantener continuidad. En ese caso, además es habitual un shot_type con variantes customize (manual) o intelligent (automática).
El consejo más consistente en guías prácticas: etiquetar claramente las tomas y describir para cada una framing + sujeto + movimiento; bien estructurado produce transiciones más suaves y “cobertura” más usable.
Parámetros para afinar: qué tocar y por qué
Duración (3–15s). A mayor duración, más lugar para deriva. Si el objetivo es “calidad por segundo”, suele rendir mejor dividir narrativa en multi‑shot con tomas cortas (2–5s) dentro del total.
Aspect ratio. 16:9, 9:16 y 1:1 están disponibles como enums en schemas comunes; conviene decidir ratio al inicio del proyecto y mantenerlo estable para continuidad.
CFG / cfg_scale. En modelos de difusión, la guía (CFG) controla el trade‑off entre adherencia al condicionamiento (prompt) y diversidad/calidad perceptual. CFG se formaliza como combinación de predicciones condicionales e incondicionales.
En schemas de Kling 3.0 integrados, cfg_scale aparece como float (default 0.5), por lo que la escala numérica no necesariamente coincide con UIs clásicas (7–12). La técnica correcta es tuneo empírico por escena: subir lentamente si el modelo “ignora” el prompt; bajar si aparecen artefactos, saturación/rigidez o movimiento “sobre‑guiado”.
Negative prompt. En los schemas consultados, el default suele incluir “blur, distort, and low quality”. Ajustarlo sirve para atacar artefactos recurrentes (p. ej., texto, watermark, deformaciones) sin contaminar el prompt positivo.
Audio nativo y voces. Hay endpoints que permiten generate_audio y además aceptar voice_ids, referenciables en el prompt como <<<voice_1>>>, <<<voice_2>>> (máximo dos voces por tarea), con obtención vía endpoint de “create‑voice”.
En el stack 3.0 se documenta audio multilingüe incluyendo español, y posibilidad de multi‑personaje con idiomas distintos según integración.
Resolución y FPS: cautelas por plataforma. En documentación de integración, Pro suele asociarse a 1080p (y Standard a resoluciones menores como 720p/768p, según proveedor), mientras que dentro de kling.ai aparecen claims de 1080p nativo y rangos de FPS altos en guías de “quality optimization”.
Recomendación práctica: tomar “resolución/FPS” como un parámetro dependiente del canal (web app vs partner vs API wrapper) y validar en tu pipeline final.
Seed / reproducibilidad. En los schemas revisados para 3.0 (V3/O3/Motion Control) no aparece un parámetro de seed explícito; por lo tanto la reproducibilidad depende más de controles “duros” (start/end frames, elements, reference video) que de repetición determinista.
Prompts listos para usar en inglés
A continuación, sets por modelo y género. Los prompts están pensados para:
- ser suficientemente específicos,
- describir una única intención por toma,
- usar vocabulario de cámara coherente con guías de prompting de video.
Kling 3.0 (V3) — Cinematic
Cinematic wide establishing shot at golden hour: a lone rider crosses a salt flat, heat haze shimmering. Slow dolly-in, 35mm film look, anamorphic lens flare, shallow depth of field, volumetric sun rays, realistic dust trails, subtle handheld sway, high detail.
Variant (noir): Medium shot in a rain-soaked alley at night, neon reflections on wet pavement. Slow push-in, film noir lighting (hard key + deep shadows), slight fog, rack focus from a cigarette ember to the detective’s eyes, cinematic grain.
Kling 3.0 (V3) — Documentary
Handheld documentary shot: a wildlife ranger walks through tall grass at dawn, whispering to camera. Natural light, realistic color, subtle wind noise, gentle camera shake, authentic clothing details, shallow depth of field, minimal stylization.
Variant (science doc): Static tripod shot of a lab bench as gloved hands assemble a micro-drone. Clean high-key lighting, crisp focus, subtle ambient room tone, slow macro insert shots, realistic reflections and materials.
Kling 3.0 (V3) — Animation
Stylized 2D animation: a brave fox explores an enchanted forest. Smooth parallax background layers, soft rim light, hand-drawn linework, subtle smear frames on motion, gentle camera pan right, warm color palette.
Variant (3D toon): Pixar-like 3D animation style, a small robot cooks breakfast in a tiny kitchen. Soft global illumination, bouncy timing, slow tilt down reveal, expressive eyes, clean shapes, playful motion.
Kling 3.0 (V3) — VFX
VFX shot: a marble statue cracks and turns into living skin. Macro close-up on the crack line, particles and dust, slow-motion debris, dramatic rim lighting, camera orbit 30 degrees, realistic subsurface scattering, seamless transformation.
Variant (portal): A glowing portal opens on a city street at night, sparks and volumetric fog spill out. Low-angle shot, slow crane up, lens flare, realistic reflections, controlled chaos, cinematic emphasis on the light interaction.
Kling 3.0 (V3) — Product demo
Luxury product commercial: a matte-black perfume bottle on black marble, soft caustic highlights. Slow 360-degree orbit, clean studio lighting (one key light + soft fill), shallow depth of field, premium reflections, minimal background, elegant pacing.
Variant (tech): Close-up macro of a smartwatch screen booting up. Clean high-contrast lighting, slow push-in, subtle bokeh, crisp typography (no extra text), realistic glass reflections, product-focused framing.
Omni (O3) — Cinematic (con elements / referencias)
Replace the main character with @Element1. Wide shot: @Element1 stands on a cliff above a stormy sea at dusk. Slow dolly-in, strong wind in clothing, cinematic lighting, volumetric fog, dramatic sky. Keep character identity and outfit consistent across the shot.
Variant (multi-character): Replace both characters with @Element1 and @Element2. Shot-reverse-shot dialogue staging, warm interior tungsten lighting, subtle handheld. Maintain consistent faces, wardrobe, and eyelines.
Omni (O3) — Documentary (con referencia visual)
Use @Video1 as reference for camera language and pacing. Generate a new documentary-style shot with the same camera movement, but replace the subject with @Element1. Natural lighting, realistic textures, minimal stylization, authentic background ambience.
Variant (travel): Use @Video1 as reference. Replace the host with @Element1. Keep the same walk-and-talk motion, but change the environment to a bazaar with warm afternoon light and natural crowd ambience.
Omni (O3) — Animation (restyle / continuidad)
Restyle @Video1 into stylized 2D animation with clean linework and soft shading. Preserve the camera movement and timing. Replace the main character with @Element1. Keep background shapes simplified and consistent.
Variant (toon-shaded 3D): Convert @Video1 into toon-shaded 3D animation. Preserve the original motion and framing. Upgrade lighting to soft cinematic rim light and add subtle depth-of-field.
Omni (O3) — VFX (edit / replacement)
Edit @Video1: replace the object in the actor’s hand with @Element1. Add subtle particle sparks and a soft glow around the object. Keep the original camera motion and scene continuity, realistic reflections and shadows.
Variant (weather): Edit @Video1: turn the environment into heavy snow with wind-driven particles. Keep character motion intact, preserve faces, add realistic breath vapor in cold air.
Omni (O3) — Product demo (brand continuity)
Use @Video1 as reference camera and pacing. Replace the product with @Element1. Clean studio look, controlled reflections, premium lighting. No extra logos or text, maintain consistent product scale and orientation.
Variant (UGC): Use @Video1 as reference. Replace the product with @Element1 and keep the hand motion consistent. Natural indoor lighting, subtle phone-camera feel, believable micro-shake.
Motion Control 3.0 — Cinematic (performance transfer)
Cinematic performance transfer: keep the character’s face stable and expressive. Match the reference motion precisely, but upgrade lighting to golden-hour key light with soft rim. Gentle handheld camera sway, shallow depth of field, cinematic color.
Variant (action): Match the reference motion with clean silhouettes and clear limbs. Add dynamic tracking camera feel, subtle motion blur, dramatic contrast lighting, realistic cloth simulation cues.
Motion Control 3.0 — Documentary
Documentary realism: preserve the reference performance exactly. Natural daylight, minimal stylization, subtle ambient audio (if keeping original sound), handheld camera feel without exaggerated motion.
Variant (interview): Keep performance subtle: small gestures, calm breathing. Static tripod framing, soft key light, quiet room tone, realistic skin textures, no overdone cinematic effects.
Motion Control 3.0 — Animation
Stylized character animation: transfer the reference motion onto a cartoon character without losing timing. Clean edges, simplified shading, minimal texture crawl, smooth arcs, playful squash-and-stretch feel (subtle).
Variant (anime): Transfer the motion with anime timing accents: slightly snappier poses, clean linework, dramatic rim light, controlled background motion to avoid flicker.
Motion Control 3.0 — VFX
VFX enhancement on top of transferred motion: add subtle energy trails following the hands, light interaction on the face, controlled particles. Keep the base performance readable, avoid excessive camera motion.
Variant (transformation): During the motion, gradually transform clothing material from fabric to metallic armor. Keep facial identity consistent and preserve limb proportions.
Motion Control 3.0 — Product demo
Performance-driven product spot: the character performs the reference gesture while presenting a product to camera. Keep product scale realistic, clean key light, subtle specular highlights, stable face, minimal background distractions.
Variant (fashion): Transfer the walk motion onto the model character. Emphasize fabric motion and realistic folds, runway lighting, slow tracking camera, consistent outfit identity.
Multi‑Shot y Start/End Frames
Esta sección cubre instrucciones operativas y troubleshooting para (a) multi‑shot storytelling y (b) “Frame In / Frame Out” (Start & End Frames), incluyendo continuidad, blending conceptual, keyframes e interpolación.
Workflow paso a paso para Multi‑Shot
Paso conceptual: del “prompt largo” al “guion técnico”. Kling 3.0 está pensado para pasar de “un párrafo” a “dirección por toma”: hasta ~6 shots, cada uno con su prompt/duración, dentro de un total de hasta 15s.
Paso operativo:
- 1) Pre‑planificación mínima: definí objetivo narrativo, lista de tomas, y qué debe permanecer constante (personaje, vestuario, hora del día, lente, paleta). La falta de consistencia multi‑shot es un problema clásico en T2V, con un trade‑off fuerte entre identidad y dinámica del movimiento.
- 2) Elegí modo de dirección: shot_type=”customize” para control manual o shot_type=”intelligent” para que el sistema proponga el découpage.
- 3) Estructurá el multi‑shot como serie: en schemas, multi_prompt es una lista de objetos {prompt, duration} que divide el clip en toma(s).
- 4) Duración por toma: en práctica “cinematográfica”, tomas de 2–5s maximizan estabilidad. (Hay guías que proponen estructuras típicas: establishing → close‑up → profile → action, cada una con duración asignada).
- 5) Cámara y acción por toma: describí encuadre + movimiento. Kling interpreta vocabulario cinematográfico y eso ayuda al modelo a variar ángulos manteniendo continuidad.
- 6) Consistencia por “elements” cuando sea posible: para personajes y objetos recurrentes, reutilizar elementos reduce drift. En O3, además, V2V permite preservar el “lenguaje de cámara” de un video base.
- 7) Iteración: usá un tier rápido (Standard) para iterar y Pro para el render final 1080p (según integración).
Ejemplo de especificación multi‑shot (formato tipo schema con multi_prompt):
{
“duration”: “15”,
“shot_type”: “customize”,
“multi_prompt”: [
{ “prompt”: “Wide establishing shot: …”, “duration”: “5” },
{ “prompt”: “Close-up: …”, “duration”: “3” },
{ “prompt”: “Profile shot: …”, “duration”: “3” },
{ “prompt”: “Action tracking shot: …”, “duration”: “4” }
],
“aspect_ratio”: “16:9”,
“generate_audio”: true,
“negative_prompt”: “blur, distort, low quality”
}
El soporte de multi_prompt, duración 3–15, shot_type customize/intelligent, aspect_ratio y generate_audio aparece en schemas de 3.0.
Workflow paso a paso para Start & End Frames (Frame In/Out)
Qué es: “Start & End Frames” permite subir dos imágenes (inicio y fin) para que el modelo genere la transición intermedia; es equivalente a trabajar con keyframes visuales donde la IA interpola movimiento/transformación entre A→B.
En schemas tipo Image‑to‑Video se ve como start_image_url + end_image_url.
Paso operativo de calidad (lo que más impacta): – Alineá mundo y composición: el consejo más repetido en prácticas de Start/End es que si A y B difieren demasiado en color, estilo o luz, la transición se rompe.
– Aspect ratio “manda”: el ratio del start frame suele conducir el clip y el end frame se recorta/expande a ese ratio en algunas implementaciones.
– Prompt ligero (o ninguno): en workflows tipo “transición”, se recomienda promptear solo lo esencial (cámara/acción), porque el modelo puede inferir el “in‑between”; si hay micro‑jitters o motion exagerado, simplificar dirección de cámara.
– Duración según complejidad: transiciones rápidas suelen funcionar en 5s; transformaciones complejas (morph/outfit swap) se benefician de 10s (o, en 3.0, del margen hasta 15s).
Ejemplo (prompt de transición simple, inglés):
Gentle push-in, cinematic continuity, soft lighting carryover. Smooth transition from the start frame to the end frame, minimal warping, stable composition.
Diagrama de continuidad para Multi‑Shot + Start/End
flowchart LR
A[Start Frame] –> B[Shot 1: Establishing \n(4-5s)]
B –> C[Shot 2: Close-up \n(2-4s)]
C –> D[Shot 3: Action/Reveal \n(3-5s)]
D –> E[End Frame]

Cómo combinar Motion Control 3.0 con Omni y Kling 3.0 para shots complejos
El patrón ganador para complejidad es “separar responsabilidades”: Motion Control decide el movimiento, O3 decide la continuidad con referencias (y/o edición sobre video), y V3 decide el ritmo multi‑shot y la dirección “por toma”.
Estrategia recomendada por tipo de complejidad
Caso A: actuación/baile complejo con cara estable
- 1) Motion Control 3.0 con character_orientation=”video” (mejor para motions complejos; hasta 30s de video de referencia según schema).
- 2) Activar element binding (si disponible en tu integración) para reforzar identidad facial; requiere orientación “video”.
- 3) Si necesitás cambiar set/estilo manteniendo cámara del take, pasá a O3 video‑to‑video edit/reference para preservar “cinematic language” del clip base y hacer reemplazos por @Element/@Image.
Caso B: cámara compleja pero movimiento corporal moderado
- 1) Motion Control con character_orientation=”image” (mejor cuando querés que el personaje mantenga orientación de la imagen y seguir movimientos de cámara; límite típico 10s para video referencia).
- 2) Prompts de cámara simples (pan/tilt/dolly), evitando combinar demasiados movimientos en una sola toma. La idea está alineada con guías de cámara: “un movimiento dominante” suele ser más robusto.
Caso C: escena multi‑toma con continuidad de personajes (cortes + cobertura)
- 1) Construí “assets” (character sheets / references). En flujos prácticos, crear una sheet (frente/espalda/lateral) ayuda a estabilidad multi‑shot.
- 2) Generá la escena con Kling 3.0 multi‑shot (V3 u O3) usando prompts por toma y durations.
- 3) Insertá Motion Control solo en la(s) toma(s) donde el acting sea crítico; luego unificá look con O3 edit/restyle si hace falta. (Esto reduce el trade‑off identidad vs movimiento que muestra la literatura).
Restricciones y “gotchas” al combinar referencias
En O3 Reference V2V, el prompt referencia al video como @Video1 y a imágenes/elements como @Image1/@Element1; además se documentan límites de cantidad total de referencias cuando hay video. Esto obliga a elegir pocas referencias fuertes (p. ej., 1 lookdev + 1 personaje) en vez de muchas débiles.
En Motion Control, si el personaje de la imagen no encaja con el cuerpo visible en el video (proporciones, oclusiones), el sistema advierte que el resultado empeora; por eso conviene que ambos muestren cuerpo/cabeza y sean compatibles.
Pipelines de producción de extremo a extremo
Este apartado integra (a) pre‑producción (assets), (b) generación, (c) post, y (d) recomendaciones de recursos.
Pipeline recomendado (con pre y post)
flowchart TB
A[Brief + constraints\n(genre, ratio, length)] –> B[Storyboard / shot list\n(4-6 shots max)]
B –> C[Asset pack\n(character sheet, props, environments)]
C –> D{Choose model per shot}
D –>|Prompt-driven cinematic| E[V3 multi-shot]
D –>|Reference-heavy continuity| F[O3 V2V reference/edit]
D –>|Performance-critical| G[Motion Control 3.0]
E –> H[Select best takes\n+ continuity QC]
F –> H
G –> H
H –> I[Post: edit, grade, stabilize\nsound mix, titles]
I –> J[Final delivery master\n+ social cutdowns]
Pre‑producción que más paga dividendos
En workflows reales (p. ej. integraciones tipo Spaces), se recomienda invertir en personaje fuerte y luego crear una character sheet (frente/espalda/lateral + en movimiento) para sostener consistencia entre tomas; además generar referencias de “mundo” coherentes con el personaje antes de animar.
Si tu objetivo es multi‑ángulo/multi‑shot, planificar cobertura (wide/medium/close) antes de generar reduce el “stitching caótico” y mejora continuidad percibida.
Generación: recomendaciones de recursos y modo
Iteración vs final: la lógica de Standard/Pro es clara en documentación de integración: Standard tiende a ser más rápido/costo‑efectivo, Pro tiende a ser 1080p y más lento, por lo que conviene iterar en Standard y finalizar en Pro.
API y operación: en documentación histórica (qingque) se documenta autenticación tipo JWT, límites de prompt/negative_prompt (p. ej., 2500 caracteres), y que contenidos generados pueden limpiarse tras un periodo (30 días) por seguridad, lo cual impacta tu archivado.
Audio: si tu pipeline depende del audio nativo, priorizá endpoints que documenten generate_audio y/o voice IDs; en 3.0 se describe audio multilingüe (incluye español) y capacidad de integrar diálogo + SFX + singing con lip sync (según integración).
Post‑producción: qué aporta más con video generativo
En video por difusión, los problemas dominantes suelen ser micro‑jitters/flicker, pequeños “warps” y discontinuidades mínimas que se notan mucho en corte; por eso el post con mayor ROI suele ser: selección/trim por toma, estabilización ligera, etalonaje para unificar shots, y mezcla de audio cuando el nativo no alcanza el estándar deseado. La dificultad de consistencia temporal y la aparición de flicker está ampliamente discutida en literatura de difusión para video.
Si necesitás upscale o mejoras temporales, los enfoques de super‑resolución con coherencia temporal existen como línea activa de investigación (y en práctica se usan para “pulir” video), aunque el método exacto depende del toolchain.
Tablas comparativas, fallos comunes y mitigaciones
Tabla de plantillas de prompt (para reutilizar)
| Objetivo | Plantilla (en inglés) | Cuándo usar |
| Shot único “cinemático” | SHOT: [shot size], [subject] [action], [scene/time], [camera movement], [lens/DOF], [lighting], [mood], [style], [constraints] | Cuando querés maximizar control por toma con mínima deriva. |
| Multi‑shot | Shot 1: … \nShot 2: … \nShot 3: … (o multi_prompt[] con duración por toma) | Para escenas completas en un solo render; mejora cobertura y continuidad si está bien estructurado. |
| Start/End Frames | Smooth transition from start frame to end frame. [simple camera move]. [minimal details] | Para transiciones A→B, outfit/product swap, morphs, loops. |
| O3 Reference V2V | Use @Video1 as reference. Replace subject with @Element1. Preserve camera language and pacing. | Para continuidad basada en un video real; reemplazos manteniendo cámara y timing. |
| Motion Control | Match the reference motion precisely. [lighting/style upgrade]. Keep face stable. | Cuando el movimiento/acting manda y necesitás control de performance. |
Tabla de settings recomendados para Multi‑Shot y Start/End
| Escenario | Nº tomas | Duración total | shot_type | Start/End Frames | CFG/negative_prompt | Notas prácticas |
| Cinemática corta con cobertura | 4–6 | 12–15s | customize | Start frame recomendado; End opcional | cfg_scale cerca del default y ajustar; negative_prompt para blur/distort | Shots de 2–5s suelen estabilizar continuidad. |
| Transición A→B (outfit/product swap) | 1 | 5–10s | N/A | Start + End obligatorios | Prompt mínimo; negative_prompt contra warping/blur | Start/end deben ser cercanos en luz/paleta. |
| Acción rápida (combat/chase) | 2–4 | 8–12s | customize | Start recomendado | Bajar guía si aparecen deformaciones; simplificar cámara | Si el acting es crítico, derivar a Motion Control. |
| Diálogo multi‑personaje con audio | 2–5 | 10–15s | customize o intelligent | Start recomendado | Usar voice_ids + <<<voice_1>>>/<<<voice_2>>> si disponible | Solo 2 voces por tarea según schema; estructurar shot‑reverse‑shot. |
Fallos comunes y cómo mitigarlos
Deriva de identidad (cara/ropa cambia entre tomas).
Causa: trade‑off identidad vs movimiento en video por difusión; sharing de features puede degradar uno u otro. Mitigación: usar “elements” reutilizables, reforzar referencias, reducir variación entre tomas, y cuando haya movimiento complejo pasar a Motion Control con binding facial.
Flicker / micro‑jitters / warping (especialmente en transiciones).
Causa: consistencia temporal difícil; start/end demasiado distintos; exceso de instrucciones de cámara. Mitigación: start/end más cercanos (mismo mundo/paleta), prompt minimalista, cámara simple, recortar duración, o dividir en multi‑shot con tomas más cortas.
Movimiento corporal incoherente o deformaciones en Motion Control.
Causa: desajuste entre imagen del personaje y video de referencia (proporciones, oclusión, falta de cuerpo/cabeza visible). Mitigación: usar imagen con cuerpo claro (>5% del área), video con cuerpo/cabeza sin obstrucción, y elegir character_orientation=”video” para motions complejos.
La cámara “no hace lo que pedí”.
Causa: prompts con múltiples movimientos en conflicto o ambigüedad (pan + whip + macro + dolly zoom en simultáneo). Mitigación: “un movimiento principal por toma”, y describirlo con vocabulario estándar (pan/tilt/dolly/tracking/arc).
Audio desalineado / voces inconsistentes en escenas con diálogo.
Causa: ausencia de binding de voz o mezcla de demasiados hablantes. Mitigación: usar voice_ids y referenciar voces explícitamente con <<<voice_1>>>/<<<voice_2>>> (máximo 2), estructurar diálogos por toma, y revisar elección de idioma/estilo según integración.
Cambios de estilo entre tomas (look inconsistente).
Causa: prompts con estilos incompatibles o falta de referencias de mundo. Mitigación: fijar un “look bible” (paleta, lente, iluminación) y repetirlo en cada toma; si se edita sobre video, usar O3 V2V para preservar lenguaje/cámara.