HY-World 1.5 (WorldPlay): En game-changer for realtids interaktive verdensmodeller

HY-World 1.5 (WorldPlay): En game-changer for realtids interaktive verdensmodeller

4 min read

Jagten på AI, der kan generere og simulere konsistente, interaktive verdener i realtid, har taget et monumentalt spring fremad. Den 17. december 2025 åbnede Tencents Hunyuan-team kildekoden til HY-World 1.5, med kodenavnet WorldPlay. Dette er ikke bare en trinvis opdatering; det er en omfattende ramme, der hævder at løse det grundlæggende kompromis mellem hastighed, hukommelse og langsigtet konsistens i verdensmodellering.

Kort sagt muliggør WorldPlay generering af langsigtede, interaktive streamingvideoer med en imponerende 24 FPS, alt imens den geometriske konsistens over tid opretholdes. Lad os dykke ned i, hvad der gør denne model så revolutionerende.

Kerneproblemet: Hastighed vs. Konsistens#

Tidligere verdensmodeller, inklusive teamets egen HY-World 1.0, stod ofte over for en kritisk begrænsning. De kunne generere imponerende 3D-verdener, men typisk gennem en langsom, offline proces. At opnå realtidsinteraktion betød at ofre miljøets langsigtede konsistens – objekter ville ændre form, teksturer ville flimre, og geometrien ville drive over tid. WorldPlay sigter mod at knuse dette kompromis.

De fire søjler i WorldPlays arkitektur#

Det store gennembrud er drevet af fire vigtige tekniske innovationer:

  1. Dual Action Representation: Dette er modellens "controller". Den oversætter brugerinput (som tastatur- og musebevægelser) til et robust, model-forståeligt handlingsrum, der giver mulighed for præcis og responsiv kontrol over den genererede verdens synspunkt.

  2. Reconstituted Context Memory: Dette er kernen i langsigtet konsistens. For at forhindre modellen i at "glemme" fortiden, genopbygger dette modul dynamisk kontekst fra tidligere genererede videobidder. Den bruger en smart teknik kaldet temporal reframing for at holde geometrisk vigtige billeder fra den fjerne fortid tilgængelige, hvilket effektivt løser problemet med hukommelsessvækkelse.

  3. WorldCompass: En ny RL Post-Training Framework: Efter den indledende træning gennemgår modellen en forstærkningslæringsfase (RL), der er specifikt designet til langsigtede opgaver. WorldCompass optimerer modellen direkte for bedre handlingsfølgning og højere visuel kvalitet over udvidede sekvenser, hvilket sikrer, at output forbliver stabilt og sammenhængende.

  4. Context Forcing: Memory-Aware Distillation: For at opnå realtidshastigheder destilleres en mindre, hurtigere "student"-model ofte fra en større "teacher"-model. Standarddestillation kan dog få eleven til at miste sin evne til at bruge langtrækkende kontekst. Context Forcing er en ny destillationsmetode, der justerer hukommelseskonteksten mellem lærer og elev, hvilket bevarer elevens kapacitet til langsigtet ræsonnement, samtidig med at 24 FPS-generering muliggøres.

Nøglefunktioner og -egenskaber#

  • Realtid og interaktiv: Genererer videostreams ved 24 FPS, hvilket giver mulighed for live-interaktion baseret på brugerinput.
  • Langsigtet geometrisk konsistens: Opretholder stabiliteten og sammenhængen i verdens struktur over lange generationshorisonter.
  • Alsidige applikationer: Understøtter både første- og tredjepersonsperspektiver i virkelige og stiliserede miljøer. Potentielle applikationer inkluderer interaktiv 3D-rekonstruktion, prompte begivenheder (f.eks. "få det til at regne") og uendelig verdensudvidelse.
  • Omfattende open source-udgivelse: Teamet har ikke kun frigivet modelvægtene som open source, men også en fuld-stack ramme, der dækker data, træning og inferensimplementering.

Kvantitativ overlegenhed#

Modellens ydeevne understøttes af omfattende evalueringer. Som vist i tabellen nedenfor, overgår den fulde WorldPlay-model ("Ours (full)") eksisterende state-of-the-art metoder på tværs af nøglemålinger som PSNR, SSIM og LPIPS, især i langsigtede scenarier, samtidig med at den er den eneste, der opererer i realtid.

ModelRealtidKortvarig PSNR/SSIM/LPIPSLangvarig PSNR/SSIM/LPIPS
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Ours (full)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

Kom godt i gang med WorldPlay#

For udviklere, der er ivrige efter at eksperimentere, giver repository'et en klar vej til hurtig start. Modellen er bygget på den kraftfulde HunyuanVideo-1.5 basemodel. Opsætningen involverer:

  1. Oprettelse af et Python 3.10-miljø og installation af afhængigheder.
  2. Installation af Flash Attention for optimeret ydeevne.
  3. Download af den forudtrænede HunyuanVideo-1.5-model og de specifikke WorldPlay-checkpoints.
  4. Kørsel af de medfølgende inferensscripts (generate.py eller generate_custom_trajectory.py for brugerdefinerede kamerastier).

Koden understøtter inferens med forskellige modelvarianter: tovejs, autoregressiv og den destillerede autoregressive model for maksimal hastighed.

Konklusion og fremtidigt arbejde#

HY-World 1.5 (WorldPlay) repræsenterer en vigtig milepæl i AI-drevet indholdsskabelse og simulering. Ved systematisk at adressere flaskehalsene for hastighed og konsistens åbner det op for nye muligheder for realtids, interaktive applikationer inden for gaming, virtual reality og arkitektonisk visualisering.

Teamet har angivet, at træningskoden stadig er på TODO-listen for open sourcing, hvilket vil være et afgørende næste skridt for forskningssamfundet til at bygge videre på dette arbejde. Indtil videre er frigivelsen af modellerne og inferenskoden et massivt bidrag, der giver alle mulighed for at opleve og benchmarke denne state-of-the-art interaktive verdensmodel.

Lær mere:

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles