HY-World 1.5 (WorldPlay):即時互動世界模型的遊戲規則改變者

HY-World 1.5 (WorldPlay):即時互動世界模型的遊戲規則改變者

2 min read

能夠即時生成和模擬一致、互動世界的 AI 技術,其探索之路已向前邁進了一大步。在 2025 年 12 月 17 日,騰訊的 Hunyuan 團隊開源了 HY-World 1.5,代號 WorldPlay。這不僅僅是一個漸進式的更新;它是一個全面的框架,聲稱可以解決世界建模中速度、記憶體和長期一致性之間的基本權衡。

簡而言之,WorldPlay 能夠以驚人的 24 FPS 生成長時程、互動式的串流影片,同時保持幾何一致性。讓我們深入了解是什麼讓這個模型如此具有革命性。

核心問題:速度 vs. 一致性#

先前的世界模型,包括團隊自己的 HY-World 1.0,經常面臨一個關鍵的限制。它們可以生成令人印象深刻的 3D 世界,但通常需要透過緩慢的離線過程。實現即時互動意味著犧牲環境的長期一致性——物體會變形,紋理會閃爍,幾何結構會隨著時間漂移。WorldPlay 旨在打破這種妥協。

WorldPlay 架構的四大支柱#

這項突破是由四項關鍵的技術創新所驅動:

  1. 雙重動作表示 (Dual Action Representation): 這是模型的「控制器」。它將使用者輸入(如鍵盤和滑鼠移動)轉換為一個穩健、模型可理解的動作空間,從而可以精確且靈敏地控制生成世界的視點。

  2. 重組上下文記憶 (Reconstituted Context Memory): 這是長期一致性的核心。為了防止模型「忘記」過去,這個模組會動態地從先前生成的影片片段中重建上下文。它使用一種稱為 時間重構 (temporal reframing) 的巧妙技術,使來自遙遠過去的幾何重要幀保持可訪問性,有效地解決了記憶衰減的問題。

  3. WorldCompass:一種新穎的 RL 後訓練框架: 在初始訓練之後,模型會經歷一個專門為長時程任務設計的強化學習 (RL) 階段。WorldCompass 直接優化模型,以在更長的序列中實現更好的動作追蹤和更高的視覺品質,確保輸出保持穩定和連貫。

  4. 上下文強制 (Context Forcing):記憶感知蒸餾: 為了實現即時速度,通常會從較大的「教師」模型中蒸餾出一個較小、更快的「學生」模型。然而,標準蒸餾可能會導致學生失去使用長程上下文的能力。上下文強制是一種新穎的蒸餾方法,可以對齊教師和學生之間的記憶上下文,從而保留學生進行長期推理的能力,同時實現 24 FPS 的生成速度。

主要功能和特性#

  • 即時和互動: 以 24 FPS 生成影片串流,允許基於使用者輸入進行即時互動。
  • 長期幾何一致性: 在較長的生成時程中保持世界結構的穩定性和連貫性。
  • 多功能應用: 支援真實世界和風格化環境中的第一人稱和第三人稱視角。潛在應用包括互動式 3D 重建、可提示事件(例如,「讓它下雨」)和無限世界擴展。
  • 全面的開源版本: 該團隊不僅開源了模型權重,還開源了一個涵蓋資料、訓練和推論部署的完整堆疊框架。

量化優勢#

該模型的效能得到了廣泛評估的支持。如下表所示,完整的 WorldPlay 模型(「Ours (full)」)在 PSNR、SSIM 和 LPIPS 等關鍵指標上優於現有的最先進方法,尤其是在長期場景中,同時也是唯一一個以即時方式運作的模型。

模型即時短期 PSNR/SSIM/LPIPS長期 PSNR/SSIM/LPIPS
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Ours (full)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

WorldPlay 入門#

對於渴望進行實驗的開發人員來說,該儲存庫提供了一條清晰的快速入門路徑。該模型建立在強大的 HunyuanVideo-1.5 基礎模型之上。設定包括:

  1. 建立一個 Python 3.10 環境並安裝依賴項。
  2. 安裝 Flash Attention 以獲得最佳效能。
  3. 下載預先訓練的 HunyuanVideo-1.5 模型和特定的 WorldPlay 檢查點。
  4. 執行提供的推論腳本(generate.pygenerate_custom_trajectory.py 用於自訂相機路徑)。

該程式碼支援使用不同的模型變體進行推論:雙向、自迴歸和用於最大速度的蒸餾自迴歸模型。

結論和未來工作#

HY-World 1.5 (WorldPlay) 代表了 AI 驅動的內容創建和模擬領域的一個重要里程碑。透過系統地解決速度和一致性的瓶頸,它為遊戲、虛擬實境和建築視覺化中的即時、互動應用開闢了新的可能性。

該團隊表示,訓練程式碼仍在開源的待辦事項清單上,這將是研究社群在此基礎上進行構建的關鍵下一步。目前,模型和推論程式碼的發布是一項巨大的貢獻,使每個人都可以體驗和評估這種最先進的互動世界模型。

了解更多:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles