De zoektocht naar AI die consistente, interactieve werelden in real-time kan genereren en simuleren, heeft een monumentale sprong voorwaarts gemaakt. Op 17 december 2025 heeft het Hunyuan-team van Tencent HY-World 1.5 open-source gemaakt, met de codenaam WorldPlay. Dit is niet zomaar een incrementele update; het is een uitgebreid framework dat beweert de fundamentele afweging tussen snelheid, geheugen en consistentie op lange termijn in wereldmodellering op te lossen.
Kortom, WorldPlay maakt de generatie van interactieve streaming video met lange horizon mogelijk met een verbluffende 24 FPS, terwijl de geometrische consistentie in de loop van de tijd behouden blijft. Laten we eens kijken wat dit model zo revolutionair maakt.
Het kernprobleem: snelheid versus consistentie#
Eerdere wereldmodellen, waaronder HY-World 1.0 van het team zelf, kampten vaak met een kritieke beperking. Ze konden indrukwekkende 3D-werelden genereren, maar meestal via een traag, offline proces. Het bereiken van real-time interactie betekende het opofferen van de consistentie van de omgeving op lange termijn - objecten zouden vervormen, texturen zouden flikkeren en de geometrie zou in de loop van de tijd verschuiven. WorldPlay wil dit compromis doorbreken.
De vier pijlers van de architectuur van WorldPlay#
De doorbraak wordt aangedreven door vier belangrijke technische innovaties:
-
Dual Action Representation: Dit is de "controller" van het model. Het vertaalt gebruikersinvoer (zoals toetsenbord- en muisbewegingen) in een robuuste, door het model begrijpelijke actieruimte die een nauwkeurige en responsieve controle over het gezichtspunt van de gegenereerde wereld mogelijk maakt.
-
Reconstituted Context Memory: Dit is de kern van consistentie op lange termijn. Om te voorkomen dat het model het verleden "vergeet", herbouwt deze module dynamisch context uit eerder gegenereerde videofragmenten. Het gebruikt een slimme techniek die temporele herformulering wordt genoemd om geometrisch belangrijke frames uit het verre verleden toegankelijk te houden, waardoor het probleem van geheugenverlies effectief wordt opgelost.
-
WorldCompass: Een nieuw RL Post-Training Framework: Na de eerste training ondergaat het model een reinforcement learning (RL) fase die specifiek is ontworpen voor lange-horizon taken. WorldCompass optimaliseert het model direct voor betere actie-opvolging en hogere visuele kwaliteit over langere sequenties, waardoor de output stabiel en coherent blijft.
-
Context Forcing: Memory-Aware Distillation: Om real-time snelheden te bereiken, wordt een kleiner, sneller "student" model vaak gedistilleerd uit een groter "teacher" model. Standaard distillatie kan er echter voor zorgen dat de student zijn vermogen verliest om context op lange termijn te gebruiken. Context Forcing is een nieuwe distillatiemethode die de geheugencontext tussen leraar en leerling afstemt, waardoor het vermogen van de leerling om op lange termijn te redeneren behouden blijft en 24 FPS generatie mogelijk wordt.
Belangrijkste kenmerken en mogelijkheden#
- Real-time en interactief: Genereert videostreams met 24 FPS, waardoor live interactie op basis van gebruikersinvoer mogelijk is.
- Geometrische consistentie op lange termijn: Behoudt de stabiliteit en coherentie van de structuur van de wereld over lange generatiehorizons.
- Veelzijdige toepassingen: Ondersteunt zowel first-person als third-person perspectieven in real-world en gestileerde omgevingen. Potentiële toepassingen zijn onder meer interactieve 3D-reconstructie, promptable events (bijv. "laat het regenen") en oneindige wereldextensie.
- Uitgebreide open-source release: Het team heeft niet alleen de modelgewichten open-source gemaakt, maar ook een full-stack framework dat data, training en inference deployment omvat.
Kwantitatieve superioriteit#
De prestaties van het model worden ondersteund door uitgebreide evaluaties. Zoals te zien is in de onderstaande tabel, presteert het volledige WorldPlay-model ("Ours (full)") beter dan bestaande state-of-the-art methoden op belangrijke metrics zoals PSNR, SSIM en LPIPS, vooral in lange-termijn scenario's, terwijl het de enige is die in real-time werkt.
| Model | Real-time | Short-term PSNR/SSIM/LPIPS | Long-term PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Aan de slag met WorldPlay#
Voor ontwikkelaars die graag willen experimenteren, biedt de repository een duidelijk pad naar een snelle start. Het model is gebouwd op het krachtige HunyuanVideo-1.5 basismodel. De setup omvat:
- Het creëren van een Python 3.10 omgeving en het installeren van dependencies.
- Het installeren van Flash Attention voor geoptimaliseerde prestaties.
- Het downloaden van het pre-trained HunyuanVideo-1.5 model en de specifieke WorldPlay checkpoints.
- Het uitvoeren van de meegeleverde inference scripts (
generate.pyofgenerate_custom_trajectory.pyvoor aangepaste camerapaden).
De code ondersteunt inference met verschillende modelvarianten: bidirectioneel, autoregressief en het gedistilleerde autoregressieve model voor maximale snelheid.
Conclusie en toekomstig werk#
HY-World 1.5 (WorldPlay) vertegenwoordigt een belangrijke mijlpaal in AI-gedreven contentcreatie en simulatie. Door systematisch de bottlenecks van snelheid en consistentie aan te pakken, opent het nieuwe mogelijkheden voor real-time, interactieve toepassingen in gaming, virtual reality en architecturale visualisatie.
Het team heeft aangegeven dat de trainingscode nog op de TODO-lijst staat voor open-sourcing, wat een cruciale volgende stap zal zijn voor de onderzoeksgemeenschap om op dit werk voort te bouwen. Voorlopig is de release van de modellen en inference code een enorme bijdrage die iedereen in staat stelt om dit state-of-the-art interactieve wereldmodel te ervaren en te benchmarken.
Meer informatie:
- GitHub Repository: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Technical Report & Paper: Check de repository voor links naar het gedetailleerde technische rapport en research papers.



