能夠即時生成和模擬一致、互動世界的 AI 技術,其探索之路已向前邁進了一大步。在 2025 年 12 月 17 日,騰訊的 Hunyuan 團隊開源了 HY-World 1.5,代號 WorldPlay。這不僅僅是一個漸進式的更新;它是一個全面的框架,聲稱可以解決世界建模中速度、記憶體和長期一致性之間的基本權衡。
簡而言之,WorldPlay 能夠以驚人的 24 FPS 生成長時程、互動式的串流影片,同時保持幾何一致性。讓我們深入了解是什麼讓這個模型如此具有革命性。
核心問題:速度 vs. 一致性#
先前的世界模型,包括團隊自己的 HY-World 1.0,經常面臨一個關鍵的限制。它們可以生成令人印象深刻的 3D 世界,但通常需要透過緩慢的離線過程。實現即時互動意味著犧牲環境的長期一致性——物體會變形,紋理會閃爍,幾何結構會隨著時間漂移。WorldPlay 旨在打破這種妥協。
WorldPlay 架構的四大支柱#
這項突破是由四項關鍵的技術創新所驅動:
-
雙重動作表示 (Dual Action Representation): 這是模型的「控制器」。它將使用者輸入(如鍵盤和滑鼠移動)轉換為一個穩健、模型可理解的動作空間,從而可以精確且靈敏地控制生成世界的視點。
-
重組上下文記憶 (Reconstituted Context Memory): 這是長期一致性的核心。為了防止模型「忘記」過去,這個模組會動態地從先前生成的影片片段中重建上下文。它使用一種稱為 時間重構 (temporal reframing) 的巧妙技術,使來自遙遠過去的幾何重要幀保持可訪問性,有效地解決了記憶衰減的問題。
-
WorldCompass:一種新穎的 RL 後訓練框架: 在初始訓練之後,模型會經歷一個專門為長時程任務設計的強化學習 (RL) 階段。WorldCompass 直接優化模型,以在更長的序列中實現更好的動作追蹤和更高的視覺品質,確保輸出保持穩定和連貫。
-
上下文強制 (Context Forcing):記憶感知蒸餾: 為了實現即時速度,通常會從較大的「教師」模型中蒸餾出一個較小、更快的「學生」模型。然而,標準蒸餾可能會導致學生失去使用長程上下文的能力。上下文強制是一種新穎的蒸餾方法,可以對齊教師和學生之間的記憶上下文,從而保留學生進行長期推理的能力,同時實現 24 FPS 的生成速度。
主要功能和特性#
- 即時和互動: 以 24 FPS 生成影片串流,允許基於使用者輸入進行即時互動。
- 長期幾何一致性: 在較長的生成時程中保持世界結構的穩定性和連貫性。
- 多功能應用: 支援真實世界和風格化環境中的第一人稱和第三人稱視角。潛在應用包括互動式 3D 重建、可提示事件(例如,「讓它下雨」)和無限世界擴展。
- 全面的開源版本: 該團隊不僅開源了模型權重,還開源了一個涵蓋資料、訓練和推論部署的完整堆疊框架。
量化優勢#
該模型的效能得到了廣泛評估的支持。如下表所示,完整的 WorldPlay 模型(「Ours (full)」)在 PSNR、SSIM 和 LPIPS 等關鍵指標上優於現有的最先進方法,尤其是在長期場景中,同時也是唯一一個以即時方式運作的模型。
| 模型 | 即時 | 短期 PSNR/SSIM/LPIPS | 長期 PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
WorldPlay 入門#
對於渴望進行實驗的開發人員來說,該儲存庫提供了一條清晰的快速入門路徑。該模型建立在強大的 HunyuanVideo-1.5 基礎模型之上。設定包括:
- 建立一個 Python 3.10 環境並安裝依賴項。
- 安裝 Flash Attention 以獲得最佳效能。
- 下載預先訓練的 HunyuanVideo-1.5 模型和特定的 WorldPlay 檢查點。
- 執行提供的推論腳本(
generate.py或generate_custom_trajectory.py用於自訂相機路徑)。
該程式碼支援使用不同的模型變體進行推論:雙向、自迴歸和用於最大速度的蒸餾自迴歸模型。
結論和未來工作#
HY-World 1.5 (WorldPlay) 代表了 AI 驅動的內容創建和模擬領域的一個重要里程碑。透過系統地解決速度和一致性的瓶頸,它為遊戲、虛擬實境和建築視覺化中的即時、互動應用開闢了新的可能性。
該團隊表示,訓練程式碼仍在開源的待辦事項清單上,這將是研究社群在此基礎上進行構建的關鍵下一步。目前,模型和推論程式碼的發布是一項巨大的貢獻,使每個人都可以體驗和評估這種最先進的互動世界模型。
了解更多:
- GitHub 儲存庫: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- 技術報告和論文: 查看儲存庫以獲取詳細技術報告和研究論文的連結。



