Dążenie do stworzenia sztucznej inteligencji, która potrafi generować i symulować spójne, interaktywne światy w czasie rzeczywistym, zrobiło monumentalny krok naprzód. 17 grudnia 2025 roku zespół Hunyuan z Tencent udostępnił na zasadach open-source HY-World 1.5, o nazwie kodowej WorldPlay. To nie jest tylko kolejna aktualizacja; to kompleksowe środowisko, które, jak twierdzą twórcy, rozwiązuje fundamentalny kompromis między szybkością, pamięcią i długoterminową spójnością w modelowaniu świata.
W skrócie, WorldPlay umożliwia generowanie długoterminowego, interaktywnego strumieniowania wideo w oszałamiającej prędkości 24 FPS, przy jednoczesnym zachowaniu spójności geometrycznej w czasie. Przyjrzyjmy się bliżej temu, co czyni ten model tak rewolucyjnym.
Kluczowy Problem: Szybkość vs. Spójność#
Wcześniejsze modele świata, w tym własny HY-World 1.0 zespołu, często borykały się z krytycznym ograniczeniem. Mogły generować imponujące światy 3D, ale zazwyczaj w powolnym procesie offline. Osiągnięcie interakcji w czasie rzeczywistym oznaczało poświęcenie długoterminowej spójności środowiska – obiekty ulegałyby transformacji, tekstury migotały, a geometria dryfowała w czasie. WorldPlay ma na celu obalenie tego kompromisu.
Cztery Filary Architektury WorldPlay#
Przełom jest napędzany przez cztery kluczowe innowacje techniczne:
-
Dual Action Representation (Podwójna Reprezentacja Akcji): To jest "kontroler" modelu. Przekształca on dane wejściowe użytkownika (takie jak ruchy klawiatury i myszy) w solidną, zrozumiałą dla modelu przestrzeń akcji, która pozwala na precyzyjną i responsywną kontrolę nad punktem widzenia generowanego świata.
-
Reconstituted Context Memory (Rekonstruowana Pamięć Kontekstu): To jest rdzeń długoterminowej spójności. Aby zapobiec "zapominaniu" przeszłości przez model, ten moduł dynamicznie odbudowuje kontekst z wcześniej wygenerowanych fragmentów wideo. Wykorzystuje sprytną technikę zwaną temporal reframing (przekształcanie czasowe), aby zachować dostęp do geometrycznie ważnych klatek z odległej przeszłości, skutecznie rozwiązując problem osłabienia pamięci.
-
WorldCompass: Nowatorskie Środowisko Post-Treningowe RL: Po wstępnym treningu model przechodzi fazę uczenia się przez wzmacnianie (RL), specjalnie zaprojektowaną do zadań długoterminowych. WorldCompass bezpośrednio optymalizuje model pod kątem lepszego podążania za akcjami i wyższej jakości wizualnej w dłuższych sekwencjach, zapewniając, że wynik pozostaje stabilny i spójny.
-
Context Forcing: Memory-Aware Distillation (Wymuszanie Kontekstu: Destylacja Świadoma Pamięci): Aby osiągnąć prędkości w czasie rzeczywistym, mniejszy, szybszy model "uczeń" jest często destylowany z większego modelu "nauczyciela". Jednak standardowa destylacja może spowodować, że uczeń straci zdolność do korzystania z kontekstu dalekiego zasięgu. Context Forcing to nowatorska metoda destylacji, która dopasowuje kontekst pamięci między nauczycielem a uczniem, zachowując zdolność ucznia do długoterminowego rozumowania, jednocześnie umożliwiając generowanie 24 FPS.
Kluczowe Funkcje i Możliwości#
- Czas Rzeczywisty i Interaktywność: Generuje strumienie wideo z prędkością 24 FPS, umożliwiając interakcję na żywo w oparciu o dane wejściowe użytkownika.
- Długoterminowa Spójność Geometryczna: Utrzymuje stabilność i spójność struktury świata w długich horyzontach generowania.
- Wszechstronne Zastosowania: Obsługuje perspektywę pierwszej i trzeciej osoby w rzeczywistych i stylizowanych środowiskach. Potencjalne zastosowania obejmują interaktywną rekonstrukcję 3D, zdarzenia z możliwością wywoływania (np. "niech zacznie padać") i nieskończone rozszerzanie świata.
- Kompleksowe Udostępnienie Open-Source: Zespół udostępnił na zasadach open-source nie tylko wagi modelu, ale także pełny stos frameworku obejmujący dane, trening i wdrażanie wnioskowania.
Kwantytatywna Wyższość#
Wydajność modelu jest poparta obszernymi ocenami. Jak pokazano w poniższej tabeli, pełny model WorldPlay ("Nasz (pełny)") przewyższa istniejące najnowocześniejsze metody w kluczowych metrykach, takich jak PSNR, SSIM i LPIPS, szczególnie w scenariuszach długoterminowych, będąc jednocześnie jedynym, który działa w czasie rzeczywistym.
| Model | Czas rzeczywisty | Krótkoterminowe PSNR/SSIM/LPIPS | Długoterminowe PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Nasz (pełny) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Pierwsze Kroki z WorldPlay#
Dla programistów chętnych do eksperymentowania, repozytorium zapewnia jasną ścieżkę do szybkiego startu. Model jest zbudowany na potężnym modelu bazowym HunyuanVideo-1.5. Konfiguracja obejmuje:
- Utworzenie środowiska Python 3.10 i zainstalowanie zależności.
- Zainstalowanie Flash Attention dla zoptymalizowanej wydajności.
- Pobranie wstępnie wytrenowanego modelu HunyuanVideo-1.5 i konkretnych punktów kontrolnych WorldPlay.
- Uruchomienie dostarczonych skryptów wnioskowania (
generate.pylubgenerate_custom_trajectory.pydla niestandardowych ścieżek kamery).
Kod obsługuje wnioskowanie z różnymi wariantami modelu: dwukierunkowym, autoregresyjnym i destylowanym autoregresyjnym modelem dla maksymalnej prędkości.
Podsumowanie i Dalsze Prace#
HY-World 1.5 (WorldPlay) stanowi znaczący kamień milowy w tworzeniu i symulacji treści opartej na sztucznej inteligencji. Systematycznie rozwiązując wąskie gardła szybkości i spójności, otwiera nowe możliwości dla interaktywnych aplikacji w czasie rzeczywistym w grach, wirtualnej rzeczywistości i wizualizacji architektonicznej.
Zespół zasygnalizował, że kod treningowy jest nadal na liście TODO do udostępnienia na zasadach open-source, co będzie kluczowym następnym krokiem dla społeczności badawczej, aby budować na tej pracy. Na razie udostępnienie modeli i kodu wnioskowania jest ogromnym wkładem, który pozwala każdemu doświadczyć i porównać ten najnowocześniejszy interaktywny model świata.
Dowiedz się Więcej:
- Repozytorium GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Raport Techniczny i Artykuł: Sprawdź repozytorium pod kątem linków do szczegółowego raportu technicznego i artykułów naukowych.



