能够实时生成和模拟一致的、交互式世界的 AI 技术,其探索之路迎来了一个里程碑式的飞跃。2025 年 12 月 17 日,腾讯的混元团队开源了 HY-World 1.5,代号 WorldPlay。这不仅仅是一次渐进式的更新,而是一个综合性的框架,声称解决了世界建模中速度、内存和长期一致性之间的根本性权衡问题。
简而言之,WorldPlay 能够以惊人的 24 FPS 生成长时程、交互式的流媒体视频,同时保持几何一致性。让我们深入了解一下是什么让这个模型如此具有革命性。
核心问题:速度 vs. 一致性#
之前的世界模型,包括团队自己的 HY-World 1.0,经常面临一个关键的限制。它们可以生成令人印象深刻的 3D 世界,但通常是通过缓慢的离线过程。实现实时交互意味着牺牲环境的长期一致性——物体会变形,纹理会闪烁,几何体会随着时间漂移。WorldPlay 旨在打破这种妥协。
WorldPlay 架构的四大支柱#
这一突破由四项关键技术创新驱动:
-
双重动作表示 (Dual Action Representation): 这是模型的"控制器"。它将用户输入(如键盘和鼠标移动)转换为鲁棒的、模型可理解的动作空间,从而可以精确且响应迅速地控制生成的世界的视点。
-
重构上下文记忆 (Reconstituted Context Memory): 这是长期一致性的核心。为了防止模型"忘记"过去,该模块会动态地从先前生成的视频块中重建上下文。它使用一种称为时间重构 (temporal reframing) 的巧妙技术,使来自遥远过去的几何重要帧保持可访问,从而有效地解决了记忆衰减的问题。
-
WorldCompass:一种新型的 RL 后训练框架: 在初始训练之后,模型会经历一个专门为长时程任务设计的强化学习 (RL) 阶段。WorldCompass 直接优化模型,以在更长的序列上获得更好的动作跟随和更高的视觉质量,从而确保输出保持稳定和连贯。
-
上下文强制 (Context Forcing):记忆感知蒸馏: 为了实现实时速度,通常从一个较大的"教师"模型中提炼出一个较小的、更快的"学生"模型。然而,标准的蒸馏会导致学生失去使用长程上下文的能力。上下文强制是一种新颖的蒸馏方法,它可以对齐教师和学生之间的记忆上下文,从而保留学生进行长期推理的能力,同时实现 24 FPS 的生成速度。
主要特性和功能#
- 实时和交互式: 以 24 FPS 生成视频流,允许基于用户输入的实时交互。
- 长期几何一致性: 在较长的生成时程内保持世界结构的稳定性和连贯性。
- 多功能应用: 支持真实世界和风格化环境中的第一人称和第三人称视角。潜在的应用包括交互式 3D 重建、可提示事件(例如,"让它下雨")和无限世界扩展。
- 全面的开源发布: 该团队不仅开源了模型权重,还开源了一个涵盖数据、训练和推理部署的全栈框架。
量化优势#
该模型的性能得到了广泛评估的支持。如下表所示,完整的 WorldPlay 模型("Ours (full)")在关键指标(如 PSNR、SSIM 和 LPIPS)上优于现有的最先进方法,尤其是在长期场景中,同时也是唯一一个实时运行的模型。
| 模型 | 实时性 | 短期 PSNR/SSIM/LPIPS | 长期 PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
WorldPlay 入门#
对于渴望进行实验的开发者来说,该存储库提供了一条清晰的快速入门路径。该模型建立在强大的 HunyuanVideo-1.5 基础模型之上。设置包括:
- 创建一个 Python 3.10 环境并安装依赖项。
- 安装 Flash Attention 以优化性能。
- 下载预训练的 HunyuanVideo-1.5 模型和特定的 WorldPlay 检查点。
- 运行提供的推理脚本(
generate.py或generate_custom_trajectory.py用于自定义相机路径)。
该代码支持使用不同的模型变体进行推理:双向、自回归和用于最大速度的蒸馏自回归模型。
结论和未来工作#
HY-World 1.5 (WorldPlay) 代表了 AI 驱动的内容创建和模拟领域的一个重要里程碑。通过系统地解决速度和一致性的瓶颈,它为游戏、虚拟现实和建筑可视化中的实时交互式应用开辟了新的可能性。
该团队表示,训练代码仍在开源的待办事项列表中,这将是研究界在此基础上进行构建的关键下一步。目前,模型和推理代码的发布是一项巨大的贡献,使每个人都可以体验和评估这种最先进的交互式世界模型。
了解更多:
- GitHub 存储库: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- 技术报告和论文: 查看存储库以获取详细技术报告和研究论文的链接。



