阿里巴巴发布万2.6：人人都能当导演的时代正式到来

12月16日，阿里巴巴正式发布了新一代通义万相2.6模型系列。它是中国首个支持角色扮演功能的视频生成模型，单条视频生成时长达到国内领先的15秒。

万2.6集成了视听同步、多镜头生成和音频驱动视频创作等多种功能，其开发者称其为全球功能覆盖最全面的视频生成模型之一。

这次更新不仅仅是对单一功能的增量改进；相反，同时发布了五个新模型，包括文本到视频、图像到视频和文本到图像，涵盖了从图像到视频生成的关键方面。这意味着万2.6可以为专业电影制作和日常图像创作提供全面的支持。

01 三大突破：万2.6的核心能力#

Try it

万2.6的突破不仅在于生成时长的增加，还在于其多功能集成和专业级输出质量。

新版本在全面提升视频质量、音效和指令遵循的基础上，引入了角色扮演和镜头控制功能，使其成为中国功能最全的视频生成模型。

与9月发布的万2.5相比，2.6版本在多个维度上都取得了显著的提升。在权威的LMArena基准测试中，图像到视频生成方面已经排名中国第一，2.6版本进一步巩固了这一领先地位。

万2.6最引人注目的特点是其在中国首创的角色扮演能力。此功能允许普通用户在电影级别的镜头中呈现出色的表演。

用户只需上传个人视频并输入描述场景的文本提示，万2.6就可以快速处理镜头设计、角色表演和配音等任务，在短短几分钟内生成一部完整的短片，具有连贯的叙事和电影级别的摄影，帮助用户实现成为电影明星的梦想。

从技术上讲，通义万相已将多项创新技术集成到模型架构中。它对输入的参考视频执行多模态联合建模和学习，分析时间序列特征，如主体情感、姿势和多角度视觉特征，同时提取音色和语速等声学特征。

万2.6的镜头控制能力使其有别于普通的视频生成工具。此功能可以将简单的用户提示转换为多镜头剧本，从而生成由多个摄像机镜头组成的连贯叙事视频。

通义万相利用高级语义理解，可以将原始输入构建成具有完整故事情节和叙事张力的专业多镜头片段。在镜头的无缝切换过程中，它保持了对核心主体、场景布局和环境氛围的统一建模，确保视频在内容、节奏和情绪上高度一致。

此功能使万2.6能够理解和执行复杂的电影语言指令，只需一个命令即可完成专业摄影师和编辑的工作。

万2.6也被认为是全球功能最全面的视频生成模型。它以融入"多音频驱动"功能而著称，其中多个音轨可以作为"驱动信号"，影响角色动作、口型和镜头节奏，超越了简单的后期制作配音，实现更自然的视听同步。

这项技术亮点使万2.6能够实现更逼真的视听同步效果。通过对参考视频执行多模态联合建模，同时提取时间视觉特征和声学特征，该模型在生成过程中实现了画面和声音的完整感官一致性迁移。

万2.6的出现将进一步降低视频创作的门槛，并扩大AI视频生成的应用边界。

对于个人用户而言，万2.6提供了极具吸引力的娱乐体验。只需上传个人视频并输入文本提示，用户就可以生成以自己为主角的创意短片，例如科幻或悬疑片段。

在专业创作领域，例如广告设计和短剧制作，万2.6可以根据顺序提示生成完整的叙事短片。

例如，输入描述广告概念的提示，万2.6可以制作出以人物和产品为特色的商业视频，并在多个镜头切换中保持主体和场景等关键信息的一致性。

目前，万相模型系列支持10多种不同的视觉创作能力，包括文本到图像、图像编辑、文本到视频、图像到视频和角色扮演。它已广泛应用于AI漫画系列、广告设计和短视频创作等领域。

万2.6现已在多个平台上提供，为用户提供多样化的访问选择：

通义万相官方网站：个人用户可以直接在官方网站上免费体验基本功能。
阿里云百炼平台：为企业和开发者提供API接口，以便集成到他们自己的应用程序中。
story321.com平台：用户还可以在这个专注于AI故事生成的平台上使用万2.6。它经过专门优化，可生成叙事内容，使其适合创建短视频故事、动画和类似内容。

对于专业用户和企业，建议通过阿里云百炼平台访问API服务，以获得更稳定的性能和支持。对于个人用户和创意爱好者，万相官方网站和story321.com提供了零门槛的体验机会。Story321.com尤其适合想要创建连贯故事内容的用户。

万2.6的到来标志着AI视频生成技术已从简单的图像序列创建发展到全面的电影创作的新阶段。它不仅降低了专业视频制作的门槛，还使每个人都能方便地表达自己的创造力，实现"人人都能当导演"的愿景。

目前，万2.6已在阿里云百炼、通义万相官方网站和story321.com平台上提供。每个人都可以在这些平台上直接体验它，企业用户也可以通过阿里云百炼调用模型API。据报道，千问APP也将很快推出该模型，提供更丰富的互动方式。