Jakten på AI som kan generere og simulere konsistente, interaktive verdener i sanntid har tatt et monumentalt sprang fremover. Den 17. desember 2025 åpenkildekode Tencent sitt Hunyuan-team HY-World 1.5, kodenavn WorldPlay. Dette er ikke bare en inkrementell oppdatering; det er et omfattende rammeverk som hevder å løse det grunnleggende kompromisset mellom hastighet, minne og langsiktig konsistens i verdensmodellering.
Kort sagt, WorldPlay muliggjør generering av langhorisont, interaktiv strømmevideo med imponerende 24 FPS, samtidig som den opprettholder geometrisk konsistens over tid. La oss dykke ned i hva som gjør denne modellen så revolusjonerende.
Kjerneproblemet: Hastighet vs. Konsistens#
Tidligere verdensmodeller, inkludert teamets egen HY-World 1.0, sto ofte overfor en kritisk begrensning. De kunne generere imponerende 3D-verdener, men vanligvis gjennom en langsom, offline prosess. Å oppnå sanntidsinteraksjon betydde å ofre den langsiktige konsistensen i miljøet – objekter ville endre form, teksturer ville flimre, og geometrien ville drive over tid. WorldPlay har som mål å knuse dette kompromisset.
De fire pilarene i WorldPlays arkitektur#
Gjennombruddet drives av fire viktige tekniske innovasjoner:
-
Dual Action Representation: Dette er «kontrolleren» til modellen. Den oversetter brukerinndata (som tastatur- og musebevegelser) til et robust, modellforståelig handlingsrom som gir presis og responsiv kontroll over den genererte verdens synspunkt.
-
Reconstituted Context Memory: Dette er kjernen i langsiktig konsistens. For å forhindre at modellen «glemmer» fortiden, gjenoppbygger denne modulen dynamisk kontekst fra tidligere genererte videobiter. Den bruker en smart teknikk kalt temporal reframing for å holde geometrisk viktige rammer fra fjern fortid tilgjengelige, og løser effektivt problemet med minnesvekkelse.
-
WorldCompass: Et nytt RL-ettertreningsrammeverk: Etter innledende trening gjennomgår modellen en forsterkningslæringsfase (RL) spesielt designet for langhorisontoppgaver. WorldCompass optimaliserer modellen direkte for bedre handlingsfølging og høyere visuell kvalitet over utvidede sekvenser, og sikrer at utdataene forblir stabile og sammenhengende.
-
Context Forcing: Minnebevisst destillasjon: For å oppnå sanntidshastigheter blir en mindre, raskere «student»-modell ofte destillert fra en større «lærer»-modell. Standard destillasjon kan imidlertid føre til at studenten mister evnen til å bruke langtrekkende kontekst. Context Forcing er en ny destillasjonsmetode som justerer minnekonteksten mellom lærer og student, og bevarer studentens kapasitet for langsiktig resonnement samtidig som den muliggjør 24 FPS-generering.
Viktige funksjoner og egenskaper#
- Sanntid og interaktiv: Genererer videostrømmer med 24 FPS, noe som gir mulighet for live-interaksjon basert på brukerinndata.
- Langsiktig geometrisk konsistens: Opprettholder stabiliteten og sammenhengen i verdens struktur over lange genereringshorisonter.
- Allsidige applikasjoner: Støtter både første- og tredjepersonsperspektiver i virkelige og stiliserte miljøer. Potensielle bruksområder inkluderer interaktiv 3D-rekonstruksjon, spørsmålsstyrte hendelser (f.eks. «få det til å regne») og uendelig verdensutvidelse.
- Omfattende åpen kildekode-utgivelse: Teamet har åpen kildekode ikke bare modellvektene, men et full-stack rammeverk som dekker data, trening og inferensdistribusjon.
Kvantitativ overlegenhet#
Modellens ytelse støttes av omfattende evalueringer. Som vist i tabellen nedenfor, presterer hele WorldPlay-modellen («Ours (full)») bedre enn eksisterende state-of-the-art metoder på tvers av viktige beregninger som PSNR, SSIM og LPIPS, spesielt i langsiktige scenarier, samtidig som den er den eneste som opererer i sanntid.
| Modell | Sanntid | Kortsiktig PSNR/SSIM/LPIPS | Langsiktig PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Komme i gang med WorldPlay#
For utviklere som er ivrige etter å eksperimentere, gir depotet en klar vei til rask start. Modellen er bygget på den kraftige HunyuanVideo-1.5 basemodellen. Oppsettet innebærer:
- Opprette et Python 3.10-miljø og installere avhengigheter.
- Installere Flash Attention for optimalisert ytelse.
- Laste ned den forhåndstrente HunyuanVideo-1.5-modellen og de spesifikke WorldPlay-sjekkpunktene.
- Kjøre de medfølgende inferensskriptene (
generate.pyellergenerate_custom_trajectory.pyfor tilpassede kamerabaner).
Koden støtter inferens med forskjellige modellvarianter: toveis, autoregressiv og den destillerte autoregressive modellen for maksimal hastighet.
Konklusjon og fremtidig arbeid#
HY-World 1.5 (WorldPlay) representerer en betydelig milepæl innen AI-drevet innholdsskaping og simulering. Ved systematisk å adressere flaskehalsene for hastighet og konsistens, åpner det for nye muligheter for sanntids, interaktive applikasjoner innen spill, virtuell virkelighet og arkitektonisk visualisering.
Teamet har indikert at treningskoden fortsatt er på TODO-listen for åpen kildekode, noe som vil være et avgjørende neste skritt for forskningsmiljøet for å bygge videre på dette arbeidet. Foreløpig er utgivelsen av modellene og inferenskoden et massivt bidrag som lar alle oppleve og benchmarke denne state-of-the-art interaktive verdensmodellen.
Lær mer:
- GitHub-depot: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Teknisk rapport og artikkel: Sjekk depotet for lenker til den detaljerte tekniske rapporten og forskningsartiklene.



