La búsqueda de una IA que pueda generar y simular mundos interactivos y consistentes en tiempo real ha dado un salto monumental. El 17 de diciembre de 2025, el equipo Hunyuan de Tencent liberó el código fuente de HY-World 1.5, con nombre en clave WorldPlay. Esto no es solo una actualización incremental; es un marco de trabajo integral que afirma resolver la compensación fundamental entre velocidad, memoria y consistencia a largo plazo en el modelado de mundos.
En resumen, WorldPlay permite la generación de video en streaming interactivo de largo alcance a unos impresionantes 24 FPS, todo ello manteniendo la consistencia geométrica a lo largo del tiempo. Profundicemos en lo que hace que este modelo sea tan revolucionario.
El problema central: velocidad frente a consistencia#
Los modelos de mundo anteriores, incluido el propio HY-World 1.0 del equipo, a menudo se enfrentaban a una limitación crítica. Podían generar mundos 3D impresionantes, pero normalmente a través de un proceso lento y fuera de línea. Lograr la interacción en tiempo real significaba sacrificar la consistencia a largo plazo del entorno: los objetos se transformarían, las texturas parpadearían y la geometría se desviaría con el tiempo. WorldPlay pretende romper este compromiso.
Los cuatro pilares de la arquitectura de WorldPlay#
El avance se basa en cuatro innovaciones técnicas clave:
-
Representación de acción dual: Este es el "controlador" del modelo. Traduce las entradas del usuario (como los movimientos del teclado y el ratón) en un espacio de acción robusto y comprensible para el modelo que permite un control preciso y receptivo sobre el punto de vista del mundo generado.
-
Memoria de contexto reconstituida: Este es el núcleo de la consistencia a largo plazo. Para evitar que el modelo "olvide" el pasado, este módulo reconstruye dinámicamente el contexto a partir de fragmentos de vídeo generados previamente. Utiliza una técnica inteligente llamada reencuadre temporal para mantener accesibles los fotogramas geométricamente importantes del pasado lejano, resolviendo eficazmente el problema de la atenuación de la memoria.
-
WorldCompass: Un novedoso marco de post-entrenamiento de RL: Después del entrenamiento inicial, el modelo se somete a una fase de aprendizaje por refuerzo (RL) diseñada específicamente para tareas de largo alcance. WorldCompass optimiza directamente el modelo para un mejor seguimiento de las acciones y una mayor calidad visual en secuencias extendidas, asegurando que la salida permanezca estable y coherente.
-
Forzado de contexto: Destilación consciente de la memoria: Para lograr velocidades en tiempo real, a menudo se destila un modelo "estudiante" más pequeño y rápido a partir de un modelo "profesor" más grande. Sin embargo, la destilación estándar puede hacer que el estudiante pierda su capacidad de utilizar el contexto de largo alcance. El forzado de contexto es un novedoso método de destilación que alinea el contexto de la memoria entre el profesor y el estudiante, preservando la capacidad del estudiante para el razonamiento a largo plazo al tiempo que permite la generación de 24 FPS.
Características y capacidades clave#
- Tiempo real e interactivo: Genera flujos de vídeo a 24 FPS, lo que permite la interacción en directo basada en la entrada del usuario.
- Consistencia geométrica a largo plazo: Mantiene la estabilidad y la coherencia de la estructura del mundo a lo largo de largos horizontes de generación.
- Aplicaciones versátiles: Admite perspectivas en primera y tercera persona en entornos del mundo real y estilizados. Las aplicaciones potenciales incluyen la reconstrucción 3D interactiva, eventos programables (por ejemplo, "que llueva") y la extensión infinita del mundo.
- Lanzamiento integral de código abierto: El equipo ha liberado el código fuente no solo de los pesos del modelo, sino también de un marco de trabajo completo que abarca los datos, el entrenamiento y el despliegue de la inferencia.
Superioridad cuantitativa#
El rendimiento del modelo está respaldado por amplias evaluaciones. Como se muestra en la tabla siguiente, el modelo WorldPlay completo ("Ours (full)") supera a los métodos existentes de última generación en métricas clave como PSNR, SSIM y LPIPS, especialmente en escenarios a largo plazo, a la vez que es el único que funciona en tiempo real.
| Modelo | Tiempo real | PSNR/SSIM/LPIPS a corto plazo | PSNR/SSIM/LPIPS a largo plazo |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Cómo empezar con WorldPlay#
Para los desarrolladores deseosos de experimentar, el repositorio proporciona un camino claro para empezar rápidamente. El modelo se basa en el potente modelo base HunyuanVideo-1.5. La configuración implica:
- Crear un entorno Python 3.10 e instalar las dependencias.
- Instalar Flash Attention para un rendimiento optimizado.
- Descargar el modelo HunyuanVideo-1.5 pre-entrenado y los puntos de control específicos de WorldPlay.
- Ejecutar los scripts de inferencia proporcionados (
generate.pyogenerate_custom_trajectory.pypara rutas de cámara personalizadas).
El código admite la inferencia con diferentes variantes de modelo: bidireccional, autorregresivo y el modelo autorregresivo destilado para obtener la máxima velocidad.
Conclusión y trabajo futuro#
HY-World 1.5 (WorldPlay) representa un hito significativo en la creación y simulación de contenido impulsada por la IA. Al abordar sistemáticamente los cuellos de botella de la velocidad y la consistencia, abre nuevas posibilidades para aplicaciones interactivas en tiempo real en juegos, realidad virtual y visualización arquitectónica.
El equipo ha indicado que el código de entrenamiento todavía está en la lista de tareas pendientes para la liberación del código fuente, lo que será un próximo paso crucial para que la comunidad de investigación construya sobre este trabajo. Por ahora, la liberación de los modelos y el código de inferencia es una contribución masiva que permite a todo el mundo experimentar y comparar este modelo de mundo interactivo de última generación.
Más información:
- Repositorio de GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Informe técnico y artículo: Consulta el repositorio para obtener enlaces al informe técnico detallado y a los artículos de investigación.



