El 16 de diciembre, Alibaba lanzó oficialmente la serie de modelos Tongyi Wanxiang 2.6 de nueva generación. Es el primer modelo de generación de video en China que admite una función de juego de roles, con una duración de generación de video individual que alcanza un 15 segundos líder a nivel nacional.
Integrando múltiples funciones como la sincronización audiovisual, la generación de tomas múltiples y la creación de video basada en audio, Wan 2.6 es descrito por sus desarrolladores como uno de los modelos de generación de video más completos en términos de cobertura de funciones global.
Esta actualización no es solo una mejora incremental de una sola capacidad; en cambio, se lanzaron cinco nuevos modelos simultáneamente, incluyendo texto a video, imagen a video y texto a imagen, cubriendo aspectos clave desde la imagen hasta la generación de video. Esto significa que Wan 2.6 puede proporcionar soporte integral tanto para la producción cinematográfica profesional como para la creación de imágenes cotidianas.
01 Tres Avances: Las Capacidades Centrales de Wan 2.6#
El avance de Wan 2.6 no radica solo en el aumento de la duración de la generación, sino también en su integración multifuncional y la calidad de salida de grado profesional.
Basándose en mejoras integrales en la calidad del video, los efectos de sonido y el seguimiento de instrucciones, la nueva versión introduce funciones de juego de roles y control de tomas, lo que lo convierte en el modelo de generación de video con más funciones en China.
En comparación con el Wan 2.5 lanzado en septiembre, la versión 2.6 ha logrado mejoras significativas en múltiples dimensiones. Habiendo ya ocupado el primer lugar en China por la generación de imagen a video en el punto de referencia autorizado de LMArena, la versión 2.6 impulsa aún más este liderazgo.
02 Juego de Roles: La Gente Común Puede Protagonizar Sus Propias Películas#
La característica más llamativa de Wan 2.6 es su capacidad pionera de juego de roles en China. Esta función permite a los usuarios promedio ofrecer actuaciones estelares dentro de metraje de calidad cinematográfica.
Un usuario simplemente necesita cargar un video personal e ingresar un mensaje de texto que describa un escenario. Wan 2.6 puede entonces manejar rápidamente tareas como el diseño de tomas, la actuación de personajes y el doblaje, generando un cortometraje completo con una narrativa coherente y cinematografía de grado cinematográfico en solo minutos, ayudando a los usuarios a cumplir su sueño de ser una estrella de cine.
Técnicamente, Tongyi Wanxiang ha integrado múltiples tecnologías innovadoras en la arquitectura del modelo. Realiza modelado y aprendizaje conjunto multimodal en el video de referencia de entrada, analizando características secuenciales temporalmente como la emoción del sujeto, la postura y las características visuales multiángulo, al tiempo que extrae características acústicas como el timbre y la velocidad del habla.
03 Control de Tomas: Generación Automática de Narrativas de Tomas Múltiples#
La capacidad de control de tomas de Wan 2.6 lo distingue de las herramientas ordinarias de generación de video. Esta función puede transformar simples indicaciones del usuario en guiones de tomas múltiples, produciendo videos narrativos coherentes que constan de múltiples tomas de cámara.
Utilizando la comprensión semántica de alto nivel, Tongyi Wanxiang puede construir la entrada original en segmentos profesionales de tomas múltiples con una historia completa y tensión narrativa. Durante el cambio continuo de tomas, mantiene el modelado unificado del sujeto central, el diseño de la escena y la atmósfera ambiental, asegurando una alta consistencia en el contenido, el ritmo y el estado de ánimo en todo el video.
Esta función permite a Wan 2.6 comprender y ejecutar instrucciones complejas del lenguaje cinematográfico, logrando el trabajo de fotógrafos y editores profesionales con un solo comando.
04 Multi-Audio Drive: Una Innovación Global Única#
Wan 2.6 también es reconocido como un modelo de generación de video con la funcionalidad global más completa. Se destaca por incorporar una función de "multi-audio drive", donde múltiples pistas de audio pueden actuar como "señales de conducción" que influyen en las acciones de los personajes, los movimientos de la boca y el ritmo de las tomas, yendo más allá del simple doblaje de postproducción para una sincronización audiovisual más natural.
Este punto culminante técnico permite a Wan 2.6 lograr efectos de sincronización audiovisual más realistas. Al realizar un modelado conjunto multimodal en el video de referencia y extraer simultáneamente características visuales temporales y características acústicas, el modelo logra una migración completa de la consistencia sensorial de la imagen y el sonido durante el proceso de generación.
05 Escenarios de Aplicación Práctica: Desde el Entretenimiento Personal Hasta la Creación Profesional#
El surgimiento de Wan 2.6 reducirá aún más la barrera para la creación de video y ampliará los límites de aplicación de la generación de video con IA.
Para los usuarios individuales, Wan 2.6 ofrece una experiencia de entretenimiento muy atractiva. Simplemente cargando un video personal e ingresando un mensaje de texto, los usuarios pueden generar cortometrajes creativos protagonizados por ellos mismos, como clips de ciencia ficción o suspenso.
En el campo de la creación profesional, como el diseño publicitario y la producción de cortometrajes, Wan 2.6 puede generar cortometrajes narrativos completos basados en indicaciones secuenciales.
Por ejemplo, ingresar una indicación que describa un concepto publicitario permite a Wan 2.6 producir un video comercial con personajes y productos, manteniendo la consistencia de la información clave como el sujeto y la escena en múltiples cambios de toma.
Actualmente, la familia de modelos Wanxiang admite más de 10 capacidades diferentes de creación visual, incluyendo texto a imagen, edición de imágenes, texto a video, imagen a video y juego de roles. Ya se utiliza ampliamente en áreas como series de cómics de IA, diseño publicitario y creación de videos cortos.
06 Cómo Acceder: Experiencia Conveniente Multiplataforma#
Wan 2.6 ahora está disponible en múltiples plataformas, ofreciendo a los usuarios diversas opciones de acceso:
- Sitio Web Oficial de Tongyi Wanxiang: Los usuarios individuales pueden experimentar directamente las funciones básicas de forma gratuita en el sitio web oficial.
- Plataforma Alibaba Cloud Bailian: Proporciona interfaces API para que las empresas y los desarrolladores se integren en sus propias aplicaciones.
- Plataforma story321.com: Los usuarios también pueden utilizar Wan 2.6 en esta plataforma centrada en la generación de historias con IA. Está particularmente optimizada para generar contenido narrativo, lo que la hace adecuada para crear historias de video cortas, animaciones y contenido similar.
Para usuarios profesionales y empresas, se recomienda acceder a los servicios API a través de la plataforma Alibaba Cloud Bailian para obtener un rendimiento y soporte más estables. Para usuarios individuales y entusiastas creativos, el sitio web oficial de Wanxiang y story321.com ofrecen oportunidades de experiencia de umbral cero. Story321.com es una opción ideal especialmente para los usuarios que desean crear contenido de historia coherente.
La llegada de Wan 2.6 significa que la tecnología de generación de video con IA ha evolucionado desde la simple creación de secuencias de imágenes hasta una nueva etapa de creación cinematográfica integral. No solo reduce el umbral para la producción de video profesional, sino que también permite a todos expresar su creatividad de manera conveniente, haciendo realidad la visión de que "todos pueden ser directores".
Actualmente, Wan 2.6 está disponible en Alibaba Cloud Bailian, el sitio web oficial de Tongyi Wanxiang y la plataforma story321.com. Todos pueden experimentarlo directamente en estas plataformas, y los usuarios empresariales también pueden llamar a la API del modelo a través de Alibaba Cloud Bailian. Se informa que la aplicación Qianwen también lanzará el modelo pronto, ofreciendo formas más ricas de interactuar con él.



