16 декабря Alibaba официально выпустила серию моделей Tongyi Wanxiang 2.6 нового поколения. Это первая в Китае модель генерации видео, поддерживающая функцию ролевых игр, при этом длина генерируемого видео достигает лидирующих на внутреннем рынке 15 секунд.
Интегрируя множество функций, таких как аудиовизуальная синхронизация, генерация нескольких кадров и создание видео на основе аудио, Wan 2.6 описывается ее разработчиками как одна из самых комплексных моделей генерации видео с точки зрения глобального охвата функций.
Это обновление — не просто постепенное улучшение одной функции; вместо этого были запущены одновременно пять новых моделей, включая преобразование текста в видео, изображения в видео и текста в изображение, охватывающие ключевые аспекты от изображения до генерации видео. Это означает, что Wan 2.6 может обеспечить всестороннюю поддержку как профессионального кинопроизводства, так и повседневного создания изображений.
01 Три прорыва: ключевые возможности Wan 2.6#
Прорыв Wan 2.6 заключается не только в увеличении длины генерации, но и в ее многофункциональной интеграции и профессиональном качестве вывода.
Основываясь на всесторонних улучшениях качества видео, звуковых эффектов и следования инструкциям, новая версия представляет функции ролевых игр и управления кадрами, что делает ее самой полнофункциональной моделью генерации видео в Китае.
По сравнению с Wan 2.5, выпущенной в сентябре, версия 2.6 достигла значительных улучшений по многим параметрам. Уже заняв первое место в Китае по генерации изображений в видео по авторитетному бенчмарку LMArena, версия 2.6 еще больше увеличивает этот отрыв.
02 Ролевые игры: обычные люди могут сниматься в своих собственных фильмах#
Самой привлекательной особенностью Wan 2.6 является ее новаторская функция ролевых игр в Китае. Эта функция позволяет обычным пользователям демонстрировать звездные выступления в видеоматериалах кинематографического уровня.
Пользователю просто нужно загрузить личное видео и ввести текстовый запрос, описывающий сценарий. Затем Wan 2.6 может быстро справиться с такими задачами, как дизайн кадра, игра персонажа и дубляж, генерируя полный короткометражный фильм со связным повествованием и кинематографией на уровне кино всего за несколько минут, помогая пользователям осуществить свою мечту стать кинозвездой.
Технически Tongyi Wanxiang интегрировала несколько инновационных технологий в архитектуру модели. Она выполняет многомодальное совместное моделирование и обучение на входном эталонном видео, анализируя временно последовательные функции, такие как эмоции субъекта, осанка и многоугольные визуальные характеристики, а также извлекая акустические функции, такие как тембр и скорость речи.
03 Управление кадрами: автоматическая генерация многокадровых повествований#
Возможность управления кадрами Wan 2.6 отличает ее от обычных инструментов генерации видео. Эта функция может преобразовывать простые запросы пользователей в многокадровые сценарии, создавая связные повествовательные видеоролики, состоящие из нескольких кадров.
Используя высокоуровневое семантическое понимание, Tongyi Wanxiang может построить исходный ввод в профессиональные многокадровые сегменты с полным сюжетом и повествовательным напряжением. Во время плавного переключения кадров она поддерживает унифицированное моделирование основного объекта, макета сцены и атмосферы окружающей среды, обеспечивая высокую согласованность содержания, ритма и настроения на протяжении всего видео.
Эта функция позволяет Wan 2.6 понимать и выполнять сложные инструкции кинематографического языка, выполняя работу профессиональных фотографов и редакторов с помощью одной команды.
04 Мультиаудиодрайв: уникальная глобальная инновация#
Wan 2.6 также признана моделью генерации видео с наиболее полным глобальным функционалом. Отмечается, что она включает в себя функцию «мультиаудиодрайв», где несколько звуковых дорожек могут выступать в качестве «управляющих сигналов», влияющих на действия персонажа, движения губ и темп кадра, выходя за рамки простого постпродакшн-дубляжа для более естественной аудиовизуальной синхронизации.
Эта техническая особенность позволяет Wan 2.6 достигать более реалистичных эффектов аудиовизуальной синхронизации. Выполняя многомодальное совместное моделирование на эталонном видео и одновременно извлекая временные визуальные функции и акустические функции, модель достигает полной сенсорной согласованности миграции изображения и звука в процессе генерации.
05 Практические сценарии применения: от личных развлечений до профессионального творчества#
Появление Wan 2.6 еще больше снизит барьер для создания видео и расширит границы применения генерации видео с помощью ИИ.
Для индивидуальных пользователей Wan 2.6 предлагает очень привлекательный развлекательный опыт. Просто загрузив личное видео и введя текстовый запрос, пользователи могут создавать креативные короткометражные фильмы с собой в главной роли, например, научно-фантастические или детективные клипы.
В области профессионального творчества, такой как рекламный дизайн и производство коротких драм, Wan 2.6 может генерировать полные повествовательные короткометражные фильмы на основе последовательных подсказок.
Например, ввод подсказки, описывающей рекламную концепцию, позволяет Wan 2.6 создать рекламный ролик с участием персонажей и продуктов, сохраняя согласованность ключевой информации, такой как объект и сцена, при смене нескольких кадров.
В настоящее время семейство моделей Wanxiang поддерживает более 10 различных возможностей визуального творчества, включая преобразование текста в изображение, редактирование изображений, преобразование текста в видео, преобразование изображения в видео и ролевые игры. Она уже широко используется в таких областях, как серии комиксов с искусственным интеллектом, рекламный дизайн и создание коротких видеороликов.
06 Как получить доступ: удобный мультиплатформенный опыт#
Wan 2.6 теперь доступна на нескольких платформах, предлагая пользователям разнообразные варианты доступа:
- Официальный сайт Tongyi Wanxiang: индивидуальные пользователи могут напрямую бесплатно испытать основные функции на официальном сайте.
- Платформа Alibaba Cloud Bailian: предоставляет интерфейсы API для предприятий и разработчиков для интеграции в свои собственные приложения.
- Платформа story321.com: пользователи также могут использовать Wan 2.6 на этой платформе, ориентированной на создание историй с помощью ИИ. Она особенно оптимизирована для создания повествовательного контента, что делает ее подходящей для создания коротких видеоисторий, анимации и подобного контента.
Для профессиональных пользователей и предприятий рекомендуется получать доступ к API-сервисам через платформу Alibaba Cloud Bailian для более стабильной работы и поддержки. Для индивидуальных пользователей и творческих энтузиастов официальный сайт Wanxiang и story321.com предоставляют возможности для опыта с нулевым порогом вхождения. Story321.com — идеальный выбор, особенно для пользователей, желающих создавать связный контент.
Появление Wan 2.6 означает, что технология генерации видео с помощью ИИ эволюционировала от простого создания последовательности изображений к новому этапу комплексного кинематографического творчества. Она не только снижает порог для профессионального производства видео, но и дает каждому возможность удобно выражать свое творчество, реализуя видение, что «каждый может быть режиссером».
В настоящее время Wan 2.6 доступна в Alibaba Cloud Bailian, на официальном сайте Tongyi Wanxiang и на платформе story321.com. Каждый может напрямую испытать ее на этих платформах, а корпоративные пользователи также могут вызывать API модели через Alibaba Cloud Bailian. Сообщается, что приложение Qianwen также скоро запустит модель, предлагая более богатые способы взаимодействия с ней.



