Das Streben nach einer KI, die konsistente, interaktive Welten in Echtzeit generieren und simulieren kann, hat einen monumentalen Sprung nach vorn gemacht. Am 17. Dezember 2025 hat das Hunyuan-Team von Tencent HY-World 1.5 als Open Source veröffentlicht, Codename WorldPlay. Dies ist nicht nur ein inkrementelles Update; es ist ein umfassendes Framework, das behauptet, den grundlegenden Kompromiss zwischen Geschwindigkeit, Speicher und langfristiger Konsistenz bei der Weltmodellierung zu lösen.
Kurz gesagt, WorldPlay ermöglicht die Generierung von interaktivem Streaming-Video mit langem Horizont und atemberaubenden 24 FPS, wobei die geometrische Konsistenz über die Zeit erhalten bleibt. Lassen Sie uns eintauchen, was dieses Modell so revolutionär macht.
Das Kernproblem: Geschwindigkeit vs. Konsistenz#
Frühere Weltmodelle, einschließlich des eigenen HY-World 1.0 des Teams, standen oft vor einer kritischen Einschränkung. Sie konnten beeindruckende 3D-Welten generieren, aber typischerweise durch einen langsamen Offline-Prozess. Das Erreichen von Echtzeit-Interaktion bedeutete, die langfristige Konsistenz der Umgebung zu opfern – Objekte würden sich verwandeln, Texturen würden flackern und die Geometrie würde mit der Zeit abdriften. WorldPlay zielt darauf ab, diesen Kompromiss zu sprengen.
Die vier Säulen der WorldPlay-Architektur#
Der Durchbruch wird durch vier wichtige technische Innovationen ermöglicht:
-
Duale Aktionsrepräsentation: Dies ist der "Controller" des Modells. Es übersetzt Benutzereingaben (wie Tastatur- und Mausbewegungen) in einen robusten, modellverständlichen Aktionsraum, der eine präzise und reaktionsschnelle Steuerung des generierten Weltstandpunkts ermöglicht.
-
Rekonstituiertes Kontextgedächtnis: Dies ist der Kern der langfristigen Konsistenz. Um zu verhindern, dass das Modell die Vergangenheit "vergisst", baut dieses Modul den Kontext dynamisch aus zuvor generierten Video-Chunks wieder auf. Es verwendet eine clevere Technik namens zeitliche Neufassung, um geometrisch wichtige Frames aus der fernen Vergangenheit zugänglich zu halten und so das Problem der Gedächtnisabschwächung effektiv zu lösen.
-
WorldCompass: Ein neuartiges RL-Post-Training-Framework: Nach dem anfänglichen Training durchläuft das Modell eine Reinforcement-Learning-Phase (RL), die speziell für Aufgaben mit langem Horizont entwickelt wurde. WorldCompass optimiert das Modell direkt für eine bessere Aktionsverfolgung und eine höhere visuelle Qualität über längere Sequenzen hinweg, wodurch sichergestellt wird, dass die Ausgabe stabil und kohärent bleibt.
-
Kontext-Forcing: Speicherbewusste Destillation: Um Echtzeitgeschwindigkeiten zu erreichen, wird oft ein kleineres, schnelleres "Studenten"-Modell aus einem größeren "Lehrer"-Modell destilliert. Standard-Destillation kann jedoch dazu führen, dass der Student seine Fähigkeit verliert, Langstreckenkontext zu verwenden. Kontext-Forcing ist eine neuartige Destillationsmethode, die den Gedächtniskontext zwischen Lehrer und Schüler angleicht und so die Fähigkeit des Schülers zum langfristigen Denken bewahrt und gleichzeitig die Generierung von 24 FPS ermöglicht.
Hauptmerkmale und Fähigkeiten#
- Echtzeit und interaktiv: Generiert Videostreams mit 24 FPS, was eine Live-Interaktion basierend auf Benutzereingaben ermöglicht.
- Langfristige geometrische Konsistenz: Erhält die Stabilität und Kohärenz der Weltstruktur über lange Generierungshorizonte hinweg.
- Vielseitige Anwendungen: Unterstützt sowohl die First-Person- als auch die Third-Person-Perspektive in realen und stilisierten Umgebungen. Potenzielle Anwendungen umfassen interaktive 3D-Rekonstruktion, aufforderbare Ereignisse (z. B. "lass es regnen") und unendliche Welterweiterung.
- Umfassende Open-Source-Veröffentlichung: Das Team hat nicht nur die Modellgewichte als Open Source veröffentlicht, sondern auch ein Full-Stack-Framework, das Daten, Training und Inferenzbereitstellung abdeckt.
Quantitative Überlegenheit#
Die Leistung des Modells wird durch umfangreiche Bewertungen untermauert. Wie in der folgenden Tabelle gezeigt, übertrifft das vollständige WorldPlay-Modell ("Ours (full)") bestehende State-of-the-Art-Methoden in Bezug auf wichtige Metriken wie PSNR, SSIM und LPIPS, insbesondere in langfristigen Szenarien, und ist gleichzeitig das einzige, das in Echtzeit arbeitet.
| Modell | Echtzeit | Kurzfristige PSNR/SSIM/LPIPS | Langfristige PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Erste Schritte mit WorldPlay#
Für Entwickler, die gerne experimentieren möchten, bietet das Repository einen klaren Weg zum Schnellstart. Das Modell basiert auf dem leistungsstarken Basismodell HunyuanVideo-1.5. Das Setup umfasst:
- Erstellen einer Python 3.10-Umgebung und Installieren von Abhängigkeiten.
- Installieren von Flash Attention für optimierte Leistung.
- Herunterladen des vortrainierten HunyuanVideo-1.5-Modells und der spezifischen WorldPlay-Checkpoints.
- Ausführen der bereitgestellten Inferenzskripte (
generate.pyodergenerate_custom_trajectory.pyfür benutzerdefinierte Kamerapfade).
Der Code unterstützt die Inferenz mit verschiedenen Modellvarianten: bidirektional, autoregressiv und das destillierte autoregressive Modell für maximale Geschwindigkeit.
Schlussfolgerung und zukünftige Arbeit#
HY-World 1.5 (WorldPlay) stellt einen bedeutenden Meilenstein in der KI-gesteuerten Inhaltserstellung und -simulation dar. Durch die systematische Behebung der Engpässe von Geschwindigkeit und Konsistenz eröffnet es neue Möglichkeiten für interaktive Echtzeitanwendungen in den Bereichen Gaming, Virtual Reality und Architekturvisualisierung.
Das Team hat angegeben, dass der Trainingscode noch auf der TODO-Liste für die Open-Source-Veröffentlichung steht, was ein entscheidender nächster Schritt für die Forschungsgemeinschaft sein wird, um auf dieser Arbeit aufzubauen. Vorerst ist die Veröffentlichung der Modelle und des Inferenzcodes ein massiver Beitrag, der es jedem ermöglicht, dieses hochmoderne interaktive Weltmodell zu erleben und zu bewerten.
Mehr erfahren:
- GitHub-Repository: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Technischer Bericht & Paper: Überprüfen Sie das Repository auf Links zum detaillierten technischen Bericht und zu den Forschungsarbeiten.



