HY-World 1.5 (WorldPlay):实时交互式世界模型的游戏规则改变者

HY-World 1.5 (WorldPlay):实时交互式世界模型的游戏规则改变者

2 min read

能够实时生成和模拟一致的、交互式世界的 AI 技术,其探索之路迎来了一个里程碑式的飞跃。2025 年 12 月 17 日,腾讯的混元团队开源了 HY-World 1.5,代号 WorldPlay。这不仅仅是一次渐进式的更新,而是一个综合性的框架,声称解决了世界建模中速度、内存和长期一致性之间的根本性权衡问题。

简而言之,WorldPlay 能够以惊人的 24 FPS 生成长时程、交互式的流媒体视频,同时保持几何一致性。让我们深入了解一下是什么让这个模型如此具有革命性。

核心问题:速度 vs. 一致性#

之前的世界模型,包括团队自己的 HY-World 1.0,经常面临一个关键的限制。它们可以生成令人印象深刻的 3D 世界,但通常是通过缓慢的离线过程。实现实时交互意味着牺牲环境的长期一致性——物体会变形,纹理会闪烁,几何体会随着时间漂移。WorldPlay 旨在打破这种妥协。

WorldPlay 架构的四大支柱#

这一突破由四项关键技术创新驱动:

  1. 双重动作表示 (Dual Action Representation): 这是模型的"控制器"。它将用户输入(如键盘和鼠标移动)转换为鲁棒的、模型可理解的动作空间,从而可以精确且响应迅速地控制生成的世界的视点。

  2. 重构上下文记忆 (Reconstituted Context Memory): 这是长期一致性的核心。为了防止模型"忘记"过去,该模块会动态地从先前生成的视频块中重建上下文。它使用一种称为时间重构 (temporal reframing) 的巧妙技术,使来自遥远过去的几何重要帧保持可访问,从而有效地解决了记忆衰减的问题。

  3. WorldCompass:一种新型的 RL 后训练框架: 在初始训练之后,模型会经历一个专门为长时程任务设计的强化学习 (RL) 阶段。WorldCompass 直接优化模型,以在更长的序列上获得更好的动作跟随和更高的视觉质量,从而确保输出保持稳定和连贯。

  4. 上下文强制 (Context Forcing):记忆感知蒸馏: 为了实现实时速度,通常从一个较大的"教师"模型中提炼出一个较小的、更快的"学生"模型。然而,标准的蒸馏会导致学生失去使用长程上下文的能力。上下文强制是一种新颖的蒸馏方法,它可以对齐教师和学生之间的记忆上下文,从而保留学生进行长期推理的能力,同时实现 24 FPS 的生成速度。

主要特性和功能#

  • 实时和交互式: 以 24 FPS 生成视频流,允许基于用户输入的实时交互。
  • 长期几何一致性: 在较长的生成时程内保持世界结构的稳定性和连贯性。
  • 多功能应用: 支持真实世界和风格化环境中的第一人称和第三人称视角。潜在的应用包括交互式 3D 重建、可提示事件(例如,"让它下雨")和无限世界扩展。
  • 全面的开源发布: 该团队不仅开源了模型权重,还开源了一个涵盖数据、训练和推理部署的全栈框架。

量化优势#

该模型的性能得到了广泛评估的支持。如下表所示,完整的 WorldPlay 模型("Ours (full)")在关键指标(如 PSNR、SSIM 和 LPIPS)上优于现有的最先进方法,尤其是在长期场景中,同时也是唯一一个实时运行的模型。

模型实时性短期 PSNR/SSIM/LPIPS长期 PSNR/SSIM/LPIPS
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Ours (full)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

WorldPlay 入门#

对于渴望进行实验的开发者来说,该存储库提供了一条清晰的快速入门路径。该模型建立在强大的 HunyuanVideo-1.5 基础模型之上。设置包括:

  1. 创建一个 Python 3.10 环境并安装依赖项。
  2. 安装 Flash Attention 以优化性能。
  3. 下载预训练的 HunyuanVideo-1.5 模型和特定的 WorldPlay 检查点。
  4. 运行提供的推理脚本(generate.pygenerate_custom_trajectory.py 用于自定义相机路径)。

该代码支持使用不同的模型变体进行推理:双向、自回归和用于最大速度的蒸馏自回归模型。

结论和未来工作#

HY-World 1.5 (WorldPlay) 代表了 AI 驱动的内容创建和模拟领域的一个重要里程碑。通过系统地解决速度和一致性的瓶颈,它为游戏、虚拟现实和建筑可视化中的实时交互式应用开辟了新的可能性。

该团队表示,训练代码仍在开源的待办事项列表中,这将是研究界在此基础上进行构建的关键下一步。目前,模型和推理代码的发布是一项巨大的贡献,使每个人都可以体验和评估这种最先进的交互式世界模型。

了解更多:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles