Прорыв в создании ИИ, способного генерировать и моделировать согласованные интерактивные миры в реальном времени, наконец-то произошел. 17 декабря 2025 года команда Hunyuan из Tencent открыла исходный код HY-World 1.5, под кодовым названием WorldPlay. Это не просто небольшое обновление; это комплексная платформа, которая, как утверждается, решает фундаментальный компромисс между скоростью, памятью и долгосрочной согласованностью в моделировании мира.
Короче говоря, WorldPlay позволяет генерировать интерактивное потоковое видео с длинным горизонтом прогнозирования с потрясающей частотой 24 FPS, сохраняя при этом геометрическую согласованность во времени. Давайте разберемся, что делает эту модель такой революционной.
Основная проблема: скорость против согласованности#
Предыдущие модели мира, включая собственную HY-World 1.0, часто сталкивались с критическим ограничением. Они могли генерировать впечатляющие 3D-миры, но, как правило, посредством медленного, автономного процесса. Достижение взаимодействия в реальном времени означало жертвовать долгосрочной согласованностью окружающей среды — объекты деформировались, текстуры мерцали, а геометрия со временем смещалась. WorldPlay стремится разрушить этот компромисс.
Четыре столпа архитектуры WorldPlay#
Прорыв стал возможен благодаря четырем ключевым техническим инновациям:
-
Двойное представление действий: Это «контроллер» модели. Он преобразует пользовательский ввод (например, движения клавиатуры и мыши) в надежное, понятное для модели пространство действий, которое обеспечивает точное и быстрое управление точкой обзора сгенерированного мира.
-
Восстановленная контекстная память: Это ядро долгосрочной согласованности. Чтобы модель не «забывала» прошлое, этот модуль динамически восстанавливает контекст из ранее сгенерированных видеофрагментов. Он использует умный метод, называемый временным перекадрированием, чтобы сохранить геометрически важные кадры из далекого прошлого доступными, эффективно решая проблему ослабления памяти.
-
WorldCompass: новая структура пост-тренинга с подкреплением (RL): После начального обучения модель проходит фазу обучения с подкреплением (RL), специально разработанную для задач с длинным горизонтом прогнозирования. WorldCompass напрямую оптимизирует модель для лучшего следования действиям и более высокого визуального качества в течение длительных последовательностей, гарантируя, что выходные данные остаются стабильными и согласованными.
-
Принудительное использование контекста: дистилляция с учетом памяти: Для достижения скорости в реальном времени меньшая и более быстрая «студенческая» модель часто дистиллируется из большей «учительской» модели. Однако стандартная дистилляция может привести к тому, что студент потеряет способность использовать контекст дальнего действия. Context Forcing — это новый метод дистилляции, который выравнивает контекст памяти между учителем и учеником, сохраняя способность ученика к долгосрочным рассуждениям, обеспечивая при этом генерацию 24 FPS.
Ключевые особенности и возможности#
- В реальном времени и интерактивно: Генерирует видеопотоки со скоростью 24 FPS, что позволяет осуществлять взаимодействие в реальном времени на основе пользовательского ввода.
- Долгосрочная геометрическая согласованность: Поддерживает стабильность и согласованность структуры мира в течение длительных горизонтов генерации.
- Универсальные приложения: Поддерживает перспективу от первого и третьего лица в реальных и стилизованных средах. Потенциальные приложения включают интерактивную 3D-реконструкцию, события, управляемые подсказками (например, «сделай дождь») и бесконечное расширение мира.
- Комплексный выпуск с открытым исходным кодом: Команда открыла исходный код не только весов модели, но и полнофункциональной платформы, охватывающей данные, обучение и развертывание логического вывода.
Количественное превосходство#
Производительность модели подтверждается обширными оценками. Как показано в таблице ниже, полная модель WorldPlay («Ours (full)») превосходит существующие современные методы по ключевым показателям, таким как PSNR, SSIM и LPIPS, особенно в долгосрочных сценариях, и при этом является единственной, которая работает в реальном времени.
| Модель | В реальном времени | Краткосрочный PSNR/SSIM/LPIPS | Долгосрочный PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Начало работы с WorldPlay#
Для разработчиков, стремящихся экспериментировать, репозиторий предоставляет четкий путь к быстрому старту. Модель построена на основе мощной базовой модели HunyuanVideo-1.5. Настройка включает в себя:
- Создание среды Python 3.10 и установка зависимостей.
- Установка Flash Attention для оптимизации производительности.
- Загрузка предварительно обученной модели HunyuanVideo-1.5 и конкретных контрольных точек WorldPlay.
- Запуск предоставленных скриптов логического вывода (
generate.pyилиgenerate_custom_trajectory.pyдля пользовательских траекторий камеры).
Код поддерживает логический вывод с различными вариантами модели: двунаправленной, авторегрессионной и дистиллированной авторегрессионной модели для максимальной скорости.
Вывод и будущая работа#
HY-World 1.5 (WorldPlay) представляет собой важную веху в создании и моделировании контента на основе ИИ. Систематически устраняя узкие места скорости и согласованности, он открывает новые возможности для интерактивных приложений в реальном времени в играх, виртуальной реальности и архитектурной визуализации.
Команда указала, что код обучения все еще находится в списке дел для открытия исходного кода, что станет важным следующим шагом для исследовательского сообщества, чтобы развить эту работу. На данный момент выпуск моделей и кода логического вывода является огромным вкладом, который позволяет каждому испытать и оценить эту современную интерактивную модель мира.
Узнать больше:
- Репозиторий GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Технический отчет и статья: Ссылки на подробный технический отчет и исследовательские статьи можно найти в репозитории.



