실시간으로 일관성 있고 상호 작용적인 세계를 생성하고 시뮬레이션할 수 있는 AI에 대한 탐구가 획기적인 도약을 이루었습니다. 2025년 12월 17일, 텐센트의 Hunyuan 팀은 HY-World 1.5를 오픈 소스로 공개했으며, 코드명은 WorldPlay입니다. 이는 단순한 점진적 업데이트가 아니라 속도, 메모리, 장기적인 일관성 간의 근본적인 상충 관계를 해결한다고 주장하는 포괄적인 프레임워크입니다.
간단히 말해서, WorldPlay는 놀라운 24 FPS로 장기간의 상호 작용적인 스트리밍 비디오 생성을 가능하게 하면서도 시간 경과에 따른 기하학적 일관성을 유지합니다. 이 모델을 그토록 혁신적으로 만드는 요소를 자세히 살펴보겠습니다.
핵심 문제: 속도 vs. 일관성#
팀 자체의 HY-World 1.0을 포함한 이전의 세계 모델은 종종 중요한 한계에 직면했습니다. 인상적인 3D 세계를 생성할 수 있었지만 일반적으로 느린 오프라인 프로세스를 거쳐야 했습니다. 실시간 상호 작용을 달성하려면 환경의 장기적인 일관성을 희생해야 했습니다. 즉, 객체가 변형되고, 텍스처가 깜박이며, 기하학적 구조가 시간이 지남에 따라 드리프트됩니다. WorldPlay는 이러한 절충점을 깨는 것을 목표로 합니다.
WorldPlay 아키텍처의 네 가지 기둥#
이 획기적인 발전은 네 가지 주요 기술 혁신에 의해 가능해졌습니다.
-
이중 액션 표현: 이는 모델의 "컨트롤러"입니다. 사용자 입력(예: 키보드 및 마우스 움직임)을 강력하고 모델이 이해할 수 있는 액션 공간으로 변환하여 생성된 세계의 시점에 대한 정확하고 반응성이 뛰어난 제어를 가능하게 합니다.
-
재구성된 컨텍스트 메모리: 이는 장기적인 일관성의 핵심입니다. 모델이 과거를 "잊어버리는" 것을 방지하기 위해 이 모듈은 이전에 생성된 비디오 청크에서 컨텍스트를 동적으로 재구성합니다. 시간적 재구성이라는 영리한 기술을 사용하여 기하학적으로 중요한 프레임을 먼 과거부터 액세스할 수 있도록 유지하여 메모리 감쇠 문제를 효과적으로 해결합니다.
-
WorldCompass: 새로운 RL 사후 훈련 프레임워크: 초기 훈련 후 모델은 장기간 작업을 위해 특별히 설계된 강화 학습(RL) 단계를 거칩니다. WorldCompass는 확장된 시퀀스에서 더 나은 액션 추종과 더 높은 시각적 품질을 위해 모델을 직접 최적화하여 출력이 안정적이고 일관성을 유지하도록 합니다.
-
컨텍스트 강제: 메모리 인식 증류: 실시간 속도를 달성하기 위해 더 작고 빠른 "학생" 모델이 종종 더 큰 "교사" 모델에서 증류됩니다. 그러나 표준 증류는 학생이 장거리 컨텍스트를 사용하는 능력을 상실하게 할 수 있습니다. 컨텍스트 강제는 교사와 학생 간의 메모리 컨텍스트를 정렬하여 학생의 장기 추론 능력을 유지하면서 24 FPS 생성을 가능하게 하는 새로운 증류 방법입니다.
주요 기능 및 역량#
- 실시간 및 상호 작용: 24 FPS로 비디오 스트림을 생성하여 사용자 입력을 기반으로 실시간 상호 작용이 가능합니다.
- 장기적인 기하학적 일관성: 긴 생성 기간 동안 세계 구조의 안정성과 일관성을 유지합니다.
- 다재다능한 응용 분야: 실제 및 스타일화된 환경에서 1인칭 및 3인칭 관점을 모두 지원합니다. 잠재적인 응용 분야에는 대화형 3D 재구성, 프롬프트 가능한 이벤트(예: "비가 내리게 하세요") 및 무한한 세계 확장 등이 있습니다.
- 포괄적인 오픈 소스 릴리스: 팀은 모델 가중치뿐만 아니라 데이터, 훈련 및 추론 배포를 다루는 풀 스택 프레임워크를 오픈 소스로 공개했습니다.
양적 우위#
모델의 성능은 광범위한 평가를 통해 뒷받침됩니다. 아래 표에서 볼 수 있듯이 전체 WorldPlay 모델("Ours (full)")은 특히 장기적인 시나리오에서 PSNR, SSIM 및 LPIPS와 같은 주요 메트릭에서 기존의 최첨단 방법보다 성능이 뛰어나며 실시간으로 작동하는 유일한 모델입니다.
| 모델 | 실시간 | 단기 PSNR/SSIM/LPIPS | 장기 PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
WorldPlay 시작하기#
실험을 열망하는 개발자를 위해 리포지토리는 빠른 시작을 위한 명확한 경로를 제공합니다. 이 모델은 강력한 HunyuanVideo-1.5 기본 모델을 기반으로 구축되었습니다. 설정에는 다음이 포함됩니다.
- Python 3.10 환경을 만들고 종속성을 설치합니다.
- 최적화된 성능을 위해 Flash Attention을 설치합니다.
- 사전 훈련된 HunyuanVideo-1.5 모델과 특정 WorldPlay 체크포인트를 다운로드합니다.
- 제공된 추론 스크립트(
generate.py또는 사용자 지정 카메라 경로의 경우generate_custom_trajectory.py)를 실행합니다.
이 코드는 양방향, 자동 회귀 및 최대 속도를 위한 증류된 자동 회귀 모델과 같은 다양한 모델 변형을 사용한 추론을 지원합니다.
결론 및 향후 작업#
HY-World 1.5(WorldPlay)는 AI 기반 콘텐츠 제작 및 시뮬레이션의 중요한 이정표를 나타냅니다. 속도와 일관성의 병목 현상을 체계적으로 해결함으로써 게임, 가상 현실 및 건축 시각화에서 실시간, 상호 작용적인 응용 분야를 위한 새로운 가능성을 열어줍니다.
팀은 훈련 코드가 아직 오픈 소스 공개를 위한 TODO 목록에 있으며, 이는 연구 커뮤니티가 이 작업을 기반으로 구축하기 위한 중요한 다음 단계가 될 것이라고 밝혔습니다. 현재 모델 및 추론 코드의 릴리스는 모든 사람이 이 최첨단 대화형 세계 모델을 경험하고 벤치마킹할 수 있도록 하는 막대한 기여입니다.
자세히 알아보기:
- GitHub 리포지토리: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- 기술 보고서 및 논문: 자세한 기술 보고서 및 연구 논문에 대한 링크는 리포지토리를 확인하세요.



