Alibaba lanzó un conjunto de modelos de generación de movies de inteligencia synthetic (IA) el miércoles. Apodado WAN 2.1, estos son modelos de código abierto que pueden usarse para fines académicos y comerciales. El gigante chino de comercio electrónico lanzó los modelos en varias variantes basadas en parámetros. Desarrollado por el equipo WAN de la compañía, estos modelos se introdujeron por primera vez en enero y la compañía afirmó que WAN 2.1 puede generar movies altamente realistas. Actualmente, estos modelos se están alojando en la cara de abrazo de AI y Machine Studying (ML) Hub.
Alibaba presenta modelos de generación de movies WAN 2.1
Los nuevos modelos de AI de AI de Alibaba Video están alojados en la cara de abrazo del equipo WAN de Alibaba página. Las páginas modelo también detallan el conjunto WAN 2.1 de modelos de lenguaje grande (LLM). Hay cuatro modelos en complete: T2V-1.3B, T2V-14B, I2V-14B-720P y I2V-14B-480P. El T2V es corto para texto a video, mientras que el I2V significa imagen a video.
Los investigadores afirman que la variante más pequeña, WAN 2.1 T2V-1.3B, puede ejecutarse en una GPU de grado consumidor con tan solo 8.19 GB de VRAM. Según la publicación, el modelo AI puede generar un video de cinco segundos con una resolución de 480p utilizando un NVIDIA RTX 4090 en aproximadamente cuatro minutos.
Si bien la suite WAN 2.1 está dirigida a la generación de movies, también pueden realizar otras funciones, como la generación de imágenes, la generación de video a audio y la edición de movies. Sin embargo, los modelos de código abierto actualmente no son capaces de estas tareas avanzadas. Para la generación de movies, acepta indicaciones de texto en idiomas chinos e inglés, así como entradas de imágenes.
Al llegar a la arquitectura, los investigadores revelaron que los modelos WAN 2.1 están diseñados utilizando una arquitectura del transformador de difusión. Sin embargo, la compañía innovó la arquitectura base con nuevos autoencoders variacionales (VAE), estrategias de capacitación y más.
En specific, los modelos AI utilizan una nueva arquitectura VAE causal 3D denominada Wan-Vae. Mejora la compresión espacio -temporal y scale back el uso de la memoria. El autoencoder puede codificar y decodificar movies de resolución de 1080p de longitud ilimitada sin perder información temporal histórica. Esto permite una generación de movies consistente.
Según las pruebas internas, la compañía afirmó que los modelos WAN 2.1 superan al modelo Sora AI de OpenAI en consistencia, calidad de generación de escenas, precisión de un solo objeto y posicionamiento espacial.
Estos modelos están disponibles bajo la licencia Apache 2.0. Si bien permite un uso sin restricciones para fines académicos y de investigación, el uso comercial viene con múltiples restricciones.
Para obtener detalles de los últimos lanzamientos y noticias de Samsung, Xiaomi, Realme, OnePlus, Oppo y otras compañías en el Cell World Congress en Barcelona, visite nuestro centro MWC 2025.