リアルタイムで一貫性のあるインタラクティブな世界を生成・シミュレートできるAIの探求は、大きな飛躍を遂げました。2025年12月17日、TencentのHunyuanチームは、HY-World 1.5(コードネーム:WorldPlay)をオープンソース化しました。これは単なる段階的なアップデートではありません。速度、メモリ、ワールドモデリングにおける長期的な一貫性という根本的なトレードオフを解決すると主張する包括的なフレームワークです。
要するに、WorldPlayは、幾何学的な一貫性を維持しながら、驚異的な24 FPSで長期間のインタラクティブなストリーミングビデオの生成を可能にします。このモデルがなぜこれほど革新的であるのかを詳しく見ていきましょう。
根本的な問題:速度 vs. 一貫性#
チーム自身のHY-World 1.0を含む以前のワールドモデルは、多くの場合、重大な制限に直面していました。印象的な3Dワールドを生成できましたが、通常は遅いオフラインプロセスを通じて行われました。リアルタイムインタラクションを実現するには、環境の長期的な一貫性を犠牲にする必要がありました。オブジェクトが変形したり、テクスチャがちらついたり、ジオメトリが時間とともにドリフトしたりします。WorldPlayは、この妥協を打ち破ることを目指しています。
WorldPlayのアーキテクチャの4つの柱#
このブレークスルーは、4つの主要な技術革新によって実現されています。
-
デュアルアクション表現: これはモデルの「コントローラー」です。ユーザー入力(キーボードやマウスの動きなど)を、モデルが理解できる堅牢なアクション空間に変換し、生成されたワールドの視点を正確かつ応答性の高い制御を可能にします。
-
再構成されたコンテキストメモリ: これは長期的な一貫性の核心です。モデルが過去を「忘れる」のを防ぐために、このモジュールは以前に生成されたビデオチャンクからコンテキストを動的に再構築します。時間的なリフレーミングと呼ばれる巧妙な手法を使用して、幾何学的に重要なフレームを遠い過去からアクセスできるようにし、メモリ減衰の問題を効果的に解決します。
-
WorldCompass:新しいRLポストトレーニングフレームワーク: 初期トレーニング後、モデルは長期的なタスクのために特別に設計された強化学習(RL)フェーズを受けます。WorldCompassは、より優れたアクション追従と、拡張されたシーケンスにわたるより高い視覚品質のためにモデルを直接最適化し、出力が安定して一貫性を保つようにします。
-
コンテキスト強制:メモリを意識した蒸留: リアルタイムの速度を実現するために、より小さく、より高速な「生徒」モデルは、より大きな「教師」モデルから蒸留されることがよくあります。ただし、標準的な蒸留では、生徒が長距離コンテキストを使用する能力を失う可能性があります。コンテキスト強制は、教師と生徒の間でメモリコンテキストを調整する新しい蒸留方法であり、生徒の長期的な推論能力を維持しながら、24 FPSの生成を可能にします。
主な機能と能力#
- リアルタイムおよびインタラクティブ: 24 FPSでビデオストリームを生成し、ユーザー入力に基づいてライブインタラクションを可能にします。
- 長期的な幾何学的整合性: 長い生成期間にわたって、ワールドの構造の安定性と一貫性を維持します。
- 多様なアプリケーション: 実世界および様式化された環境で、一人称と三人称の両方の視点をサポートします。潜在的なアプリケーションには、インタラクティブな3D再構築、プロンプト可能なイベント(例:「雨を降らせる」)、無限のワールド拡張が含まれます。
- 包括的なオープンソースリリース: チームは、モデルの重みだけでなく、データ、トレーニング、推論のデプロイメントをカバーするフルスタックフレームワークをオープンソース化しました。
定量的な優位性#
モデルのパフォーマンスは、広範な評価によって裏付けられています。下の表に示すように、完全なWorldPlayモデル(「Ours(full)」)は、特に長期的なシナリオにおいて、PSNR、SSIM、LPIPSなどの主要な指標で既存の最先端の方法を上回り、リアルタイムで動作する唯一のモデルです。
| モデル | リアルタイム | 短期 PSNR/SSIM/LPIPS | 長期 PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
WorldPlayの始め方#
実験に熱心な開発者にとって、リポジトリはクイックスタートへの明確な道筋を提供します。モデルは、強力なHunyuanVideo-1.5ベースモデル上に構築されています。セットアップには以下が含まれます。
- Python 3.10環境を作成し、依存関係をインストールします。
- 最適化されたパフォーマンスのためにFlash Attentionをインストールします。
- 事前トレーニング済みのHunyuanVideo-1.5モデルと、特定のWorldPlayチェックポイントをダウンロードします。
- 提供されている推論スクリプト(カスタムカメラパスの場合は
generate.pyまたはgenerate_custom_trajectory.py)を実行します。
このコードは、双方向、自己回帰、および最大速度のための蒸留された自己回帰モデルという、さまざまなモデルバリアントでの推論をサポートしています。
結論と今後の課題#
HY-World 1.5(WorldPlay)は、AI主導のコンテンツ作成とシミュレーションにおける重要なマイルストーンです。速度と一貫性のボトルネックに体系的に対処することで、ゲーム、バーチャルリアリティ、建築ビジュアライゼーションにおけるリアルタイムのインタラクティブなアプリケーションに新たな可能性を開きます。
チームは、トレーニングコードがまだオープンソース化のTODOリストにあることを示しており、これは研究コミュニティがこの作業を基に構築するための重要な次のステップとなります。今のところ、モデルと推論コードのリリースは、誰もがこの最先端のインタラクティブなワールドモデルを体験し、ベンチマークできる大規模な貢献です。
詳細情報:
- GitHubリポジトリ: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- テクニカルレポートと論文: 詳細なテクニカルレポートと研究論文へのリンクについては、リポジトリを確認してください。



