Hunyuan Motion 通过高保真、基于骨骼的 3D 动画将自然语言变为现实
Hunyuan Motion 是下一代文本到 3D 人体动作生成模型套件,可将纯英文提示转换为流畅、逼真的、基于骨骼的动画。Hunyuan Motion 由一个拥有十亿参数的 Diffusion Transformer 提供支持,该 Transformer 经过 Flow Matching 训练,可将指令遵循、动作细节和时间平滑度提升到一个新的水平。该项目提供即用型 CLI 和交互式 Gradio 应用程序,用于快速迭代、可重现的工作流程和跨平台兼容性。通过大规模预训练、高质量微调和来自人类反馈的强化学习,Hunyuan Motion 在游戏、电影、VR/AR、虚拟制作和数字人流程方面实现了最先进的质量和可靠性。在 github.com 上探索官方开源实现、预训练权重和快速入门工具。

Hunyuan Motion 是一系列文本到 3D 人体动作生成模型,可直接从自然语言提示生成基于骨骼的角色动画。Hunyuan Motion 构建在 Diffusion Transformer 之上,并使用 Flow Matching 进行训练,可扩展到十亿参数级别,与之前的开源系统相比,显著提高了指令遵循和动作质量。训练流程结合了三个阶段——对各种人体动作进行大规模预训练、对精选的高质量序列进行微调,以及通过人类反馈进行强化学习——以提供与详细文本方向对齐的平滑、物理上合理的动作。最终结果是一个提示到动画的工作流程,可以无缝集成到现代 3D 流程中。该项目附带一个标准模型(≈10 亿个参数)和一个 Lite 变体(≈4.6 亿个参数),用于不同的性能范围,以及跨平台支持、批处理友好的 CLI 和一个简单的 Gradio UI,用于交互式探索。完整详细信息、更新和使用说明可在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存储库中找到。
具有 Flow Matching 的 Diffusion Transformer 扩展到约 10 亿个参数,以实现卓越的指令遵循和动作质量 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)
三阶段训练:大规模预训练、高质量微调和 RLHF,以实现自然、连贯的动作 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)
即用型 CLI 和 Gradio 应用程序,用于快速本地推理和交互式可视化 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)
是什么让 Hunyuan Motion 与众不同
Hunyuan Motion 使用 Flow Matching 扩展了 DiT 主干,达到约 10 亿个参数,从而提高了指令遵循和动作质量,同时保持了跨帧的稳定性。请参阅 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方模型描述和训练概述。
对 3,000 多个小时的动作数据进行大规模预训练,以构建广泛的先验知识;对 400 小时精选的高质量数据进行微调,以增强细节和平滑度;来自人类反馈的 RL 改进了自然性和提示依从性。详细信息记录在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上。
选择 HY-Motion-1.0(约 10 亿个参数)以获得最先进的动作保真度,或选择 HY-Motion-1.0-Lite(约 4.6 亿个参数)以进行更轻量级的部署。该存储库提供了权重和说明,以便快速设置 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)。
Hunyuan Motion 采用纯语言提示并输出与预期动作、风格和节奏对齐的动作,从而无需手动为每个姿势设置动画即可实现创意控制。
可以选择连接基于 LLM 的持续时间估计器和提示重写器模块,以提高节奏和清晰度。Hunyuan Motion 公开了简单的标志,可以根据需要启用或禁用这些助手 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)。
通过 CLI 运行批量作业以处理大型提示集,或启动本地 Gradio 服务器以进行交互式可视化。这些工具在官方存储库中维护,并在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上提供清晰的说明和示例。
Hunyuan Motion 在 macOS、Windows 和 Linux 上运行,帮助混合团队共享工作流程。该存储库包括用于一致设置和推理的要求和脚本 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)。
通过生成基于骨骼的动作,Hunyuan Motion 适合装备好的角色流程,并支持使用熟悉的 DCC 工具链进行下游重定向、混合和清理。
从提示到骨骼动画
用户编写自然语言提示,描述所需的动作、风格和节奏。Hunyuan Motion 可以选择使用提示重写和持续时间估计模块来阐明意图、推断时间并标准化措辞,然后再进行生成。此步骤增加了文本描述和动作结果之间的一致性,尤其是在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存储库中记录的复杂或多步骤动作上。
Hunyuan Motion 使用通过 Flow Matching 训练的 Diffusion Transformer 对运动轨迹进行采样。该模型输出平滑、时间上连贯的、基于骨骼的 3D 动作,该动作符合提示。结果可以在 Gradio 应用程序中交互式查看,也可以通过 CLI 保存,以便集成到您的 3D 流程中。完整的使用说明在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上提供。
从预可视化到最终动画
使用 Hunyuan Motion 快速生成跑步、跳跃、攻击、表情和穿越动作,以原型化游戏玩法并迭代角色感觉。设计师可以测试提示变体,并快速导出基于骨骼的动作,以便重定向到游戏内装备。对于较大的库,CLI 支持批量推理和一致的输出命名。官方存储库在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上显示了推荐的工作流程和标志。
在电影流程中,Hunyuan Motion 加速了预可视化和阻挡。导演可以将意图草绘为文本,让 Hunyuan Motion 生成基线动作,然后将其交给动画师进行细化。平滑、遵循指令的行为有助于保持跨镜头的修订紧凑且可预测。
将 Hunyuan Motion 与数字人配对,以合成富有表现力的手势、空闲循环和程式化行为。由于 Hunyuan Motion 是基于提示的,因此非技术创作者可以更快地探索动作创意,并与技术总监合作进行润色和交付。
Hunyuan Motion 支持快速创建环境人群动作、引导式交互和叙事节拍,从而增强沉浸感。基于骨骼的输出使得将动画重定向到针对头戴式耳机优化的装备和运行时约束变得简单。
教育工作者和研究人员可以使用 Hunyuan Motion 作为 Diffusion Transformer 和 Flow Matching 动作方法的参考。该项目的开源代码和模型动物园支持可重现的实验和指令遵循基准 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0)。
在构建一致的内部风格动作库时,Hunyuan Motion 提供了一个连贯的基础。团队可以在文本中指定语气、节奏和风格,生成一致的拍摄,并通过 Gradio 应用程序标准化审查,然后再摄取到资产管理中。
开始使用 Hunyuan Motion 生成所需的一切
Hunyuan Motion 从文本提示生成基于骨骼的 3D 人体动作,旨在集成到常见的 3D 动画流程中。该模型侧重于真实感、时间平滑度和指令遵循,以便动作、风格和节奏反映您所描述的内容。请参阅 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的项目概述和示例。
Hunyuan Motion 使用三阶段流程:对超过 3,000 小时的动作进行大规模预训练以学习广泛的先验知识,对 400 小时精选的高质量数据进行微调以获得细节和平滑度,以及通过人类反馈进行强化学习以进一步改进指令对齐和自然性。技术摘要和训练说明位于 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存储库中。
两者都是 Hunyuan Motion 的一部分。HY-Motion-1.0 是标准、约 10 亿参数的模型,可最大限度地提高指令遵循和动作保真度,而 HY-Motion-1.0-Lite(约 4.6 亿参数)则针对更轻量级的部署和更快的周转进行了优化。根据您的 GPU 预算和动作质量需求进行选择。模型下载指南在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上提供。
安装 PyTorch 和项目要求,按照存储库的说明下载预训练权重,然后选择您喜欢的界面:使用 CLI 进行批量提示或启动 Gradio 应用程序以获得交互式 UI。逐步快速入门在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上详细说明。
是的。Hunyuan Motion 可以选择使用持续时间估计器和提示重写模块来提高节奏和清晰度。您可以通过简单的标志启用或禁用这些模块。如果它们不可用,您可以显式关闭它们以避免连接错误,如存储库中 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的使用说明中所述。
Hunyuan Motion 支持 macOS、Windows 和 Linux 进行推理。CLI 和 Gradio 的安装说明、依赖项列表和工具可在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上找到。
是的。该项目包括一个您可以在本地运行的 Gradio 应用程序,用于交互式可视化。官方存储库还指向一个 Hugging Face Space 和一个官方网站,用于尝试该模型。在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上查找链接和设置。
由于 Hunyuan Motion 生成基于骨骼的动作,因此可以将其重定向到您的装备、与现有剪辑混合,并通过您的 DCC 工具进行润色。CLI 适用于批量作业,而 Gradio 应用程序支持导入前的创意探索和审查。在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上了解更多信息。
立即将提示转化为可用于生产的骨骼动画。按照官方存储库中的快速入门,启动 Gradio 应用程序以进行即时可视化,并使用 CLI 快速迭代以进行批量动作生成。在 github.com 上提供了在本地部署 Hunyuan Motion 所需的一切,包括依赖项、检查点和使用说明。
探索来自同一提供商的更多 AI 模型
使用腾讯革命性的Hunyuan 3D,将您的想法和图像转化为令人惊叹的、生产就绪的3D资产。它具有先进的扩散模型、专业的纹理合成以及用于游戏开发、产品设计和数字艺术的无缝工作流程集成。
Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.
Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.
将文本和图像转换为高质量的 3D 模型。 释放您的创造潜力。
将肖像变为现实。从单个图像和音频创建富有表现力的说话头像视频。
混元生图是腾讯最先进的多模态视频生成解决方案,它允许用户使用人工智能创建定制的、主体一致的视频。上传一张图片,输入一段文字提示,或添加音频/视频输入,即可在几秒钟内生成电影级质量的内容。