WAN 2.2 es la evolución del modelo de video generativo de Alibaba (Wan AI), lanzado en julio de 2025 como sucesor de WAN 2.1. Se trata de un sistema de difusión multimodal capaz de generar videos a partir de imágenes (Image-to-Video, I2V), además de texto a video (T2V). A continuación, detallamos sus características enfocadas en I2V, incluyendo compatibilidad con LoRAs previos, variantes del modelo, mejoras frente a WAN 2.1, soporte de distintos flujos de trabajo con imágenes y comparativas con otros modelos de video AI.
Compatibilidad con LoRAs de WAN 2.1
WAN 2.2 introduce un flujo de trabajo de entrenamiento de LoRA más eficiente, permitiendo fine-tuning con pocos ejemplos (10–20 imágenes) y combinaciones de estilos mediante sliders. Un punto clave es si los LoRAs entrenados para WAN 2.1 funcionan en WAN 2.2. En la práctica, sí hay compatibilidad retroactiva: la comunidad ha reportado que los LoRAs de WAN 2.1 se pueden aplicar directamente en WAN 2.2 sin problemas. Esto significa que estilos o personalizaciones logradas en la versión anterior pueden reutilizarse en la nueva. Adicionalmente, WAN 2.2 mantiene la posibilidad de entrenar LoRAs personalizados para adaptar el modelo a estilos específicos (por ejemplo, usando Difusión-Pipe o ComfyUI). En resumen, podrás seguir usando tus LoRAs de WAN 2.1 en WAN 2.2, beneficiándote además de un entrenamiento más rápido y flexible en la nueva versión.
Variantes del modelo WAN 2.2 (tamaños y configuraciones)
Alibaba lanzó WAN 2.2 en múltiples variantes de tamaño, optimizadas para distintas capacidades:
- WAN 2.2-A14B (14B parámetros, MoE): Versión insignia de ~14 mil millones de parámetros, con arquitectura Mixture-of-Experts (MoE). Esta es la configuración de máxima calidad para generar video, disponible tanto para texto a video (T2V) como imagen a video (I2V). El modelo A14B soporta resolución nativa de 480p y 720p por difusión directa, e incluso se planteó 1080p como objetivo (aunque 720p es lo recomendado con 1 GPU debido a la memoria requerida). La arquitectura MoE separa la difusión en expertos de alto y bajo nivel de ruido, aumentando la capacidad sin incrementar el costo computacional. Requerimientos: alrededor de 80 GB VRAM para inferencia a 720p en un solo GPU (se puede usar offloading y FP8 para reducir memoria).
- WAN 2.2-TI2V-5B (5B parámetros): Versión ligera de ~5 mil millones de parámetros, con un VAE de alta compresión 16×16×4 desarrollado en WAN 2.2. Este modelo compacto es híbrido (TI2V = Text+Image to Video), capaz de aceptar prompts de texto e imágenes de entrada simultáneamente. Genera video hasta 720p a 24 FPS y está optimizado para GPUs de gama de consumo (por ejemplo, una RTX 4090 puede ejecutarlo). Es una de las soluciones 720p más rápidas disponibles en 2025, pensada tanto para investigación académica como aplicaciones industriales.
Nota: En WAN 2.1 existían dos variantes principales: un modelo grande de 14B y uno ligero de 1.3B optimizado para ~8 GB VRAM. En WAN 2.2, el modelo 1.3B fue reemplazado por el nuevo 5B, que aunque más pesado que 1.3B, aprovecha mejor la compresión y aporta mayor calidad. La columna vertebral del modelo también se ha aligerado eficientemente (backbone ~10B parámetros efectivos) gracias a la arquitectura MoE.
Mejoras de WAN 2.2 en I2V frente a WAN 2.1
WAN 2.2 supone un salto significativo respecto a la versión 2.1, incorporando varias mejoras relevantes para la generación de video a partir de imágenes:
- Mayor resolución y calidad cinematográfica: WAN 2.2 aumenta la resolución de salida nativa hasta 1080p (frente a 720p en 2.1). Además, está entrenado con datos estéticos meticulosamente etiquetados (iluminación, composición, contraste, color, etc.), permitiendo un control más preciso del estilo cinematográfico en los videos. En la práctica, 2.2 logra videos con iluminación, tono de color y encuadres profesionales ajustables por prompt, superando la estética lograda por 2.1.
- Control de movimiento avanzado (VACE 2.0): Incorpora la segunda generación del Video Animation Control Engine. VACE 2.0 ofrece mayor control sobre la cámara y animación: permite definir trayectorias de cámara complejas, “bloquear” o fijar el sujeto principal en cuadro, y estabilizar el fondo. En otras palabras, 2.2 facilita movimientos de cámara cinematográficos (paneos, zooms suaves) y seguimiento de objetos, logrando transiciones más fluidas que la versión 2.1. Esto amplía significativamente la capacidad de dirigir la narrativa visual en I2V, donde antes solo se disponía de VACE 1.0 con control básico de cámara.
- Efectos especiales integrados: A diferencia de 2.1, la versión 2.2 puede generar efectos volumétricos y partículas nativamente. Por ejemplo, incluye datos para fuego, humo, niebla, reflejos globales e iluminación realista en las escenas. Esto significa que una imagen estática de entrada puede cobrar vida con elementos dinámicos adicionales (explosiones, luces, polvo, etc.) coherentes durante el video, sin necesidad de posprocesos externos.
- Moción más compleja y coherente: WAN 2.2 fue entrenado con mucho más dato que 2.1 – un 65.6% más imágenes y 83.2% más videos. Gracias a este conjunto ampliado, mejora notablemente la generalización de movimientos complejos y la comprensión semántica de escenas. En I2V esto se refleja en animaciones más variadas y naturales desde una imagen: WAN 2.2 puede inferir mejor cómo podría moverse la escena o sujeto de la foto, manteniendo coherencia temporal y detalles en múltiples objetos. También se mejoró la fidelidad al contenido: el modelo entiende textos o elementos presentes en la imagen (p.ej. letreros, detalles) y los preserva con mayor precisión durante la animación.
- Eficiencia y rapidez: Aunque más potente, WAN 2.2 mantiene costos computacionales similares a 2.1 gracias a optimizaciones. La arquitectura MoE reparte el trabajo de denoising entre expertos especializados por rango de ruido, aumentando capacidad sin aumentar tiempo de inferencia. Asimismo, el nuevo VAE reduce la carga de procesamiento de frames de alta resolución. En la práctica, se reporta que WAN 2.2 puede generar videos 720p con más rapidez que 2.1, especialmente usando el modelo de 5B en hardware moderado.
En resumen, para tareas I2V, WAN 2.2 ofrece videos de mayor resolución, con mejor estética controlable, movimientos de cámara más sofisticados, animaciones más ricas (gracias a su entrenamiento ampliado) y posibilidad de añadir efectos visuales avanzados, todo ello de manera más manejable y abierta (código y pesos disponibles bajo Apache 2.0).
Workflows soportados: entrada de imagen (I2V) vs. entrada y salida de imagen
WAN 2.2 habilita diferentes flujos de trabajo en cuanto a uso de imágenes en la generación de video:
- a) Solo entrada de imagen (imagen → video): El modelo I2V de WAN 2.2 puede generar un video a partir de una única imagen estática de entrada, sin necesidad de prompt de texto. En este modo, la imagen inicial se usa como fotograma base y el modelo “imagina” movimiento y continuación a partir de ella. Por defecto, uno puede dejar el prompt vacío y activar la extensión de prompt automática: WAN 2.2 integra un sistema que analiza la imagen con un modelo vision-language (Alibaba Qwen-VL) para generar descripciones detalladas que guían la animación. Esto enriquece el resultado agregando contexto – por ejemplo, si la imagen muestra un gato en la playa, el modelo infiere detalles como “brisa marina, olas moviéndose” para animar el video. En resumen, WAN 2.2 sí puede producir video solo con una imagen de entrada, aprovechando su entendimiento visual para crear movimiento; la extensión de prompt ayuda a mantener la coherencia temática con la imagen. (Por supuesto, el usuario también puede añadir un prompt de texto opcional para dirigir estilo o narrativa si lo desea).
- b) Entrada y salida de imagen (imagen → video → imagen): WAN 2.2 conserva y mejora las capacidades de interpolación de fotogramas que introdujo WAN 2.1. En el flujo “imagen de entrada + imagen de referencia de salida”, se proporciona un fotograma inicial y un fotograma final deseado, y el modelo genera un video que transforma gradualmente la primera imagen en la segunda. Esta técnica, conocida como FLF2V (First and Last Frame to Video), estuvo soportada en WAN 2.1 y permitía crear transiciones suaves entre dos imágenes (por ejemplo, de un boceto inicial a una escena final detallada). Con WAN 2.2 y VACE 2.0, estas transiciones son aún más fluidas y con mejor control de cámara/objeto. Es decir, el modelo puede morphing de una imagen a otra manteniendo consistencia en movimiento y punto de vista. Este workflow de entrada y salida de imagen es muy útil para animar storyboards o prototipos: el usuario define cómo empieza y termina la secuencia, y WAN se encarga de rellenar la animación intermedia. En general, WAN 2.2 soporta tanto la animación de una sola imagen como la interpolación entre imágenes, integrándose en herramientas como ComfyUI donde existen plantillas para “Wan 2.2 Image to Video” o “Wan 2.2 5B (text+image) Video” listos para usar.
Comparativa con otros modelos I2V (Sora, Kling, Gen-3, Runway, etc.)
WAN 2.2 se posiciona como líder en rendimiento frente a otros modelos actuales de generación de video a partir de imágenes o texto. Según benchmarks internos y externos, la serie WAN ha superado tanto a modelos open-source como a soluciones comerciales de 2024–2025:
- En evaluaciones cuantitativas (Wan-Bench 2.0 y VBench), WAN 2.2 supera en la mayoría de métricas clave a los principales modelos comerciales. Por ejemplo, el equipo reporta que WAN 2.2 obtiene puntuaciones superiores en calidad visual, fidelidad de movimiento y coherencia semántica, imponiéndose sobre modelos cerrados de última generación. Esto incluye a Sora de OpenAI (modelo 2024), Kling de Kuaishou, Hailuo de MiniMax, Vidu de Shengshu, e incluso las series Gen-2/Gen-3 de RunwayML.
- Los resultados publicados en el informe técnico de WAN muestran que WAN 14B logra la mejor puntuación global en la tabla de líderes VBench. Por ejemplo, en la métrica de calidad visual y consistencia semántica, WAN 14B obtuvo ~86.2%, superando a OpenAI Sora (~84.3%) y Runway Gen-3 (~82.3%), y a otros como Kling de Kuaishou (~81.9%). Incluso la versión ligera WAN 1.3B (de la generación 2.1) alcanzó ~83.96%, por encima de modelos comerciales más pesados como HunyuanVideo de Microsoft y Kling 1.0. Esto evidencia la eficiencia del modelo WAN: con menos parámetros logra competitividad o superioridad frente a la competencia.
- En evaluaciones cualitativas (encuestas humanas), WAN también destacó. En pruebas con más de 700 comparaciones par a par, la versión de 14B ganó en la mayoría de enfrentamientos directos contra otros modelos en cuanto a calidad de imagen, suavidad del movimiento, alineación con las indicaciones y calidad general. En otras palabras, los evaluadores prefirieron consistentemente los videos generados por WAN por su realismo y fidelidad al prompt.
- Otros modelos I2V notables: Sora (OpenAI) fue uno de los primeros modelos de video generativo (2024), pero es de código cerrado. Kling (Kuaishou) y HunyuanVideo (Microsoft) son iniciativas chinas potentes en 2024, aunque sus versiones abiertas o iniciales no alcanzaron el performance de WAN en benchmarks. Runway Gen-2 y su sucesor Gen-3 son conocidos en la comunidad creativa; Gen-3 mejoró la calidad respecto a Gen-2, pero según las métricas disponibles WAN 2.1/2.2 logra mayor realismo y diversidad de movimiento. Además, WAN es open-source y bilingüe (EN/ZH) desde el inicio, lo que le dio ventaja en generar texto legible en video (carteles, subtítulos) donde otros fallaban.
En conclusión, WAN 2.2 I2V es compatible con los LoRAs de WAN 2.1, ofrece variantes de 5B y 14B parámetros, e incorpora mejoras sustanciales (1080p, mejor control de cámara VACE 2.0, efectos especiales, mayor entrenamiento) sobre su predecesor. Permite tanto animar una sola imagen como interpolar entre imágenes, adaptándose a distintos flujos de trabajo creativos. Los benchmarks y comparativas indican que WAN 2.2 se sitúa a la vanguardia de la generación de video por IA, superando o igualando a los mejores modelos actuales (OpenAI, Runway, Kuaishou, etc.) en calidad de imagen y movimiento, todo ello manteniendo una filosofía abierta y accesible para la comunidad.