HY-World 1.5 (WorldPlay): Przełom w Modelach Interaktywnych Światów w Czasie Rzeczywistym

HY-World 1.5 (WorldPlay): Przełom w Modelach Interaktywnych Światów w Czasie Rzeczywistym

5 min read

Dążenie do stworzenia sztucznej inteligencji, która potrafi generować i symulować spójne, interaktywne światy w czasie rzeczywistym, zrobiło monumentalny krok naprzód. 17 grudnia 2025 roku zespół Hunyuan z Tencent udostępnił na zasadach open-source HY-World 1.5, o nazwie kodowej WorldPlay. To nie jest tylko kolejna aktualizacja; to kompleksowe środowisko, które, jak twierdzą twórcy, rozwiązuje fundamentalny kompromis między szybkością, pamięcią i długoterminową spójnością w modelowaniu świata.

W skrócie, WorldPlay umożliwia generowanie długoterminowego, interaktywnego strumieniowania wideo w oszałamiającej prędkości 24 FPS, przy jednoczesnym zachowaniu spójności geometrycznej w czasie. Przyjrzyjmy się bliżej temu, co czyni ten model tak rewolucyjnym.

Kluczowy Problem: Szybkość vs. Spójność#

Wcześniejsze modele świata, w tym własny HY-World 1.0 zespołu, często borykały się z krytycznym ograniczeniem. Mogły generować imponujące światy 3D, ale zazwyczaj w powolnym procesie offline. Osiągnięcie interakcji w czasie rzeczywistym oznaczało poświęcenie długoterminowej spójności środowiska – obiekty ulegałyby transformacji, tekstury migotały, a geometria dryfowała w czasie. WorldPlay ma na celu obalenie tego kompromisu.

Cztery Filary Architektury WorldPlay#

Przełom jest napędzany przez cztery kluczowe innowacje techniczne:

  1. Dual Action Representation (Podwójna Reprezentacja Akcji): To jest "kontroler" modelu. Przekształca on dane wejściowe użytkownika (takie jak ruchy klawiatury i myszy) w solidną, zrozumiałą dla modelu przestrzeń akcji, która pozwala na precyzyjną i responsywną kontrolę nad punktem widzenia generowanego świata.

  2. Reconstituted Context Memory (Rekonstruowana Pamięć Kontekstu): To jest rdzeń długoterminowej spójności. Aby zapobiec "zapominaniu" przeszłości przez model, ten moduł dynamicznie odbudowuje kontekst z wcześniej wygenerowanych fragmentów wideo. Wykorzystuje sprytną technikę zwaną temporal reframing (przekształcanie czasowe), aby zachować dostęp do geometrycznie ważnych klatek z odległej przeszłości, skutecznie rozwiązując problem osłabienia pamięci.

  3. WorldCompass: Nowatorskie Środowisko Post-Treningowe RL: Po wstępnym treningu model przechodzi fazę uczenia się przez wzmacnianie (RL), specjalnie zaprojektowaną do zadań długoterminowych. WorldCompass bezpośrednio optymalizuje model pod kątem lepszego podążania za akcjami i wyższej jakości wizualnej w dłuższych sekwencjach, zapewniając, że wynik pozostaje stabilny i spójny.

  4. Context Forcing: Memory-Aware Distillation (Wymuszanie Kontekstu: Destylacja Świadoma Pamięci): Aby osiągnąć prędkości w czasie rzeczywistym, mniejszy, szybszy model "uczeń" jest często destylowany z większego modelu "nauczyciela". Jednak standardowa destylacja może spowodować, że uczeń straci zdolność do korzystania z kontekstu dalekiego zasięgu. Context Forcing to nowatorska metoda destylacji, która dopasowuje kontekst pamięci między nauczycielem a uczniem, zachowując zdolność ucznia do długoterminowego rozumowania, jednocześnie umożliwiając generowanie 24 FPS.

Kluczowe Funkcje i Możliwości#

  • Czas Rzeczywisty i Interaktywność: Generuje strumienie wideo z prędkością 24 FPS, umożliwiając interakcję na żywo w oparciu o dane wejściowe użytkownika.
  • Długoterminowa Spójność Geometryczna: Utrzymuje stabilność i spójność struktury świata w długich horyzontach generowania.
  • Wszechstronne Zastosowania: Obsługuje perspektywę pierwszej i trzeciej osoby w rzeczywistych i stylizowanych środowiskach. Potencjalne zastosowania obejmują interaktywną rekonstrukcję 3D, zdarzenia z możliwością wywoływania (np. "niech zacznie padać") i nieskończone rozszerzanie świata.
  • Kompleksowe Udostępnienie Open-Source: Zespół udostępnił na zasadach open-source nie tylko wagi modelu, ale także pełny stos frameworku obejmujący dane, trening i wdrażanie wnioskowania.

Kwantytatywna Wyższość#

Wydajność modelu jest poparta obszernymi ocenami. Jak pokazano w poniższej tabeli, pełny model WorldPlay ("Nasz (pełny)") przewyższa istniejące najnowocześniejsze metody w kluczowych metrykach, takich jak PSNR, SSIM i LPIPS, szczególnie w scenariuszach długoterminowych, będąc jednocześnie jedynym, który działa w czasie rzeczywistym.

ModelCzas rzeczywistyKrótkoterminowe PSNR/SSIM/LPIPSDługoterminowe PSNR/SSIM/LPIPS
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Nasz (pełny)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

Pierwsze Kroki z WorldPlay#

Dla programistów chętnych do eksperymentowania, repozytorium zapewnia jasną ścieżkę do szybkiego startu. Model jest zbudowany na potężnym modelu bazowym HunyuanVideo-1.5. Konfiguracja obejmuje:

  1. Utworzenie środowiska Python 3.10 i zainstalowanie zależności.
  2. Zainstalowanie Flash Attention dla zoptymalizowanej wydajności.
  3. Pobranie wstępnie wytrenowanego modelu HunyuanVideo-1.5 i konkretnych punktów kontrolnych WorldPlay.
  4. Uruchomienie dostarczonych skryptów wnioskowania (generate.py lub generate_custom_trajectory.py dla niestandardowych ścieżek kamery).

Kod obsługuje wnioskowanie z różnymi wariantami modelu: dwukierunkowym, autoregresyjnym i destylowanym autoregresyjnym modelem dla maksymalnej prędkości.

Podsumowanie i Dalsze Prace#

HY-World 1.5 (WorldPlay) stanowi znaczący kamień milowy w tworzeniu i symulacji treści opartej na sztucznej inteligencji. Systematycznie rozwiązując wąskie gardła szybkości i spójności, otwiera nowe możliwości dla interaktywnych aplikacji w czasie rzeczywistym w grach, wirtualnej rzeczywistości i wizualizacji architektonicznej.

Zespół zasygnalizował, że kod treningowy jest nadal na liście TODO do udostępnienia na zasadach open-source, co będzie kluczowym następnym krokiem dla społeczności badawczej, aby budować na tej pracy. Na razie udostępnienie modeli i kodu wnioskowania jest ogromnym wkładem, który pozwala każdemu doświadczyć i porównać ten najnowocześniejszy interaktywny model świata.

Dowiedz się Więcej:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles