La quête d'une IA capable de générer et de simuler des mondes interactifs et cohérents en temps réel a fait un bond en avant monumental. Le 17 décembre 2025, l'équipe Hunyuan de Tencent a publié en open source HY-World 1.5, nom de code WorldPlay. Il ne s'agit pas simplement d'une mise à jour incrémentale ; c'est un framework complet qui prétend résoudre le compromis fondamental entre la vitesse, la mémoire et la cohérence à long terme dans la modélisation du monde.
En bref, WorldPlay permet la génération de vidéos en streaming interactives à long terme à une vitesse stupéfiante de 24 FPS, tout en maintenant une cohérence géométrique dans le temps. Examinons de plus près ce qui rend ce modèle si révolutionnaire.
Le problème central : Vitesse vs. Cohérence#
Les modèles de monde précédents, y compris HY-World 1.0 de l'équipe, étaient souvent confrontés à une limitation critique. Ils pouvaient générer des mondes 3D impressionnants, mais généralement par le biais d'un processus hors ligne lent. La réalisation d'une interaction en temps réel signifiait le sacrifice de la cohérence à long terme de l'environnement : les objets se transformaient, les textures scintillaient et la géométrie dérivait avec le temps. WorldPlay vise à briser ce compromis.
Les quatre piliers de l'architecture de WorldPlay#
La percée est alimentée par quatre innovations techniques clés :
-
Représentation à double action : C'est le "contrôleur" du modèle. Il traduit les entrées de l'utilisateur (comme les mouvements du clavier et de la souris) en un espace d'action robuste et compréhensible par le modèle, qui permet un contrôle précis et réactif du point de vue du monde généré.
-
Mémoire de contexte reconstituée : C'est le cœur de la cohérence à long terme. Pour empêcher le modèle d'"oublier" le passé, ce module reconstruit dynamiquement le contexte à partir de segments vidéo générés précédemment. Il utilise une technique astucieuse appelée recadrage temporel pour conserver l'accessibilité des images géométriquement importantes du passé lointain, résolvant ainsi efficacement le problème de l'atténuation de la mémoire.
-
WorldCompass : Un nouveau framework de post-formation RL : Après la formation initiale, le modèle subit une phase d'apprentissage par renforcement (RL) spécialement conçue pour les tâches à long terme. WorldCompass optimise directement le modèle pour un meilleur suivi des actions et une qualité visuelle supérieure sur des séquences étendues, garantissant ainsi que la sortie reste stable et cohérente.
-
Forçage de contexte : Distillation sensible à la mémoire : Pour atteindre des vitesses en temps réel, un modèle "étudiant" plus petit et plus rapide est souvent distillé à partir d'un modèle "enseignant" plus grand. Cependant, la distillation standard peut faire perdre à l'étudiant sa capacité à utiliser le contexte à long terme. Le forçage de contexte est une nouvelle méthode de distillation qui aligne le contexte de la mémoire entre l'enseignant et l'étudiant, préservant ainsi la capacité de l'étudiant à raisonner à long terme tout en permettant une génération à 24 FPS.
Principales caractéristiques et capacités#
- Temps réel et interactif : Génère des flux vidéo à 24 FPS, permettant une interaction en direct basée sur l'entrée de l'utilisateur.
- Cohérence géométrique à long terme : Maintient la stabilité et la cohérence de la structure du monde sur de longs horizons de génération.
- Applications polyvalentes : Prend en charge les perspectives à la première et à la troisième personne dans des environnements réels et stylisés. Les applications potentielles incluent la reconstruction 3D interactive, les événements incitables (par exemple, "faire pleuvoir") et l'extension infinie du monde.
- Publication complète en open source : L'équipe a publié en open source non seulement les poids du modèle, mais également un framework complet couvrant les données, la formation et le déploiement de l'inférence.
Supériorité quantitative#
Les performances du modèle sont étayées par des évaluations approfondies. Comme le montre le tableau ci-dessous, le modèle WorldPlay complet ("Ours (full)") surpasse les méthodes de pointe existantes dans les principaux indicateurs tels que PSNR, SSIM et LPIPS, en particulier dans les scénarios à long terme, tout en étant le seul à fonctionner en temps réel.
| Modèle | Temps réel | PSNR/SSIM/LPIPS à court terme | PSNR/SSIM/LPIPS à long terme |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Premiers pas avec WorldPlay#
Pour les développeurs désireux d'expérimenter, le référentiel fournit un chemin clair pour un démarrage rapide. Le modèle est basé sur le puissant modèle de base HunyuanVideo-1.5. La configuration implique :
- Création d'un environnement Python 3.10 et installation des dépendances.
- Installation de Flash Attention pour des performances optimisées.
- Téléchargement du modèle HunyuanVideo-1.5 pré-entraîné et des points de contrôle WorldPlay spécifiques.
- Exécution des scripts d'inférence fournis (
generate.pyougenerate_custom_trajectory.pypour les chemins de caméra personnalisés).
Le code prend en charge l'inférence avec différentes variantes de modèle : bidirectionnel, autorégressif et le modèle autorégressif distillé pour une vitesse maximale.
Conclusion et travaux futurs#
HY-World 1.5 (WorldPlay) représente une étape importante dans la création et la simulation de contenu pilotées par l'IA. En s'attaquant systématiquement aux goulots d'étranglement de la vitesse et de la cohérence, il ouvre de nouvelles possibilités pour les applications interactives en temps réel dans les domaines du jeu, de la réalité virtuelle et de la visualisation architecturale.
L'équipe a indiqué que le code de formation est toujours sur la liste TODO pour la publication en open source, ce qui sera une prochaine étape cruciale pour que la communauté de recherche puisse s'appuyer sur ce travail. Pour l'instant, la publication des modèles et du code d'inférence est une contribution massive qui permet à chacun de découvrir et d'évaluer ce modèle de monde interactif de pointe.
En savoir plus :
- Référentiel GitHub : https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Rapport technique et article : Consultez le référentiel pour obtenir des liens vers le rapport technique détaillé et les articles de recherche.



