Pencarian AI yang dapat menghasilkan dan mensimulasikan dunia interaktif yang konsisten secara real-time telah mencapai lompatan monumental. Pada tanggal 17 Desember 2025, tim Hunyuan dari Tencent membuka sumber HY-World 1.5, dengan nama kode WorldPlay. Ini bukan sekadar pembaruan bertahap; ini adalah kerangka kerja komprehensif yang mengklaim dapat menyelesaikan trade-off mendasar antara kecepatan, memori, dan konsistensi jangka panjang dalam pemodelan dunia.
Singkatnya, WorldPlay memungkinkan pembuatan video streaming interaktif dengan cakrawala panjang pada 24 FPS yang menakjubkan, sambil mempertahankan konsistensi geometris dari waktu ke waktu. Mari selami apa yang membuat model ini begitu revolusioner.
Masalah Inti: Kecepatan vs. Konsistensi#
Model dunia sebelumnya, termasuk HY-World 1.0 milik tim itu sendiri, sering menghadapi keterbatasan kritis. Mereka dapat menghasilkan dunia 3D yang mengesankan tetapi biasanya melalui proses offline yang lambat. Mencapai interaksi real-time berarti mengorbankan konsistensi jangka panjang lingkungan—objek akan berubah bentuk, tekstur akan berkedip, dan geometri akan bergeser dari waktu ke waktu. WorldPlay bertujuan untuk menghancurkan kompromi ini.
Empat Pilar Arsitektur WorldPlay#
Terobosan ini didukung oleh empat inovasi teknis utama:
-
Representasi Aksi Ganda: Ini adalah "pengontrol" model. Ini menerjemahkan input pengguna (seperti gerakan keyboard dan mouse) ke dalam ruang aksi yang kuat dan dapat dipahami model yang memungkinkan kontrol yang tepat dan responsif atas sudut pandang dunia yang dihasilkan.
-
Memori Konteks yang Direkonstitusi: Ini adalah inti dari konsistensi jangka panjang. Untuk mencegah model "melupakan" masa lalu, modul ini secara dinamis membangun kembali konteks dari potongan video yang dihasilkan sebelumnya. Ia menggunakan teknik cerdas yang disebut temporal reframing untuk menjaga agar bingkai yang penting secara geometris dari masa lalu yang jauh tetap dapat diakses, secara efektif memecahkan masalah atenuasi memori.
-
WorldCompass: Kerangka Kerja Pasca-Pelatihan RL Novel: Setelah pelatihan awal, model menjalani fase reinforcement learning (RL) yang dirancang khusus untuk tugas-tugas cakrawala panjang. WorldCompass secara langsung mengoptimalkan model untuk tindakan-mengikuti yang lebih baik dan kualitas visual yang lebih tinggi selama urutan yang diperpanjang, memastikan output tetap stabil dan koheren.
-
Context Forcing: Distilasi Sadar Memori: Untuk mencapai kecepatan real-time, model "siswa" yang lebih kecil dan lebih cepat sering kali disuling dari model "guru" yang lebih besar. Namun, distilasi standar dapat menyebabkan siswa kehilangan kemampuannya untuk menggunakan konteks jarak jauh. Context Forcing adalah metode distilasi baru yang menyelaraskan konteks memori antara guru dan siswa, menjaga kapasitas siswa untuk penalaran jangka panjang sambil memungkinkan pembuatan 24 FPS.
Fitur dan Kemampuan Utama#
- Real-Time dan Interaktif: Menghasilkan aliran video pada 24 FPS, memungkinkan interaksi langsung berdasarkan input pengguna.
- Konsistensi Geometris Jangka Panjang: Mempertahankan stabilitas dan koherensi struktur dunia selama cakrawala generasi yang panjang.
- Aplikasi Serbaguna: Mendukung perspektif orang pertama dan orang ketiga di lingkungan dunia nyata dan bergaya. Aplikasi potensial termasuk rekonstruksi 3D interaktif, peristiwa yang dapat diminta (misalnya, "buat hujan"), dan perluasan dunia tanpa batas.
- Rilis Sumber Terbuka Komprehensif: Tim telah membuka sumber tidak hanya bobot model tetapi kerangka kerja full-stack yang mencakup data, pelatihan, dan penerapan inferensi.
Superioritas Kuantitatif#
Kinerja model didukung oleh evaluasi ekstensif. Seperti yang ditunjukkan pada tabel di bawah ini, model WorldPlay lengkap ("Milik Kami (penuh)") mengungguli metode state-of-the-art yang ada di seluruh metrik utama seperti PSNR, SSIM, dan LPIPS, terutama dalam skenario jangka panjang, sambil menjadi satu-satunya yang beroperasi secara real-time.
| Model | Real-time | PSNR/SSIM/LPIPS Jangka Pendek | PSNR/SSIM/LPIPS Jangka Panjang |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Milik Kami (penuh) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
Memulai dengan WorldPlay#
Untuk pengembang yang ingin bereksperimen, repositori menyediakan jalur yang jelas untuk memulai dengan cepat. Model ini dibangun di atas model dasar HunyuanVideo-1.5 yang kuat. Pengaturan melibatkan:
- Membuat lingkungan Python 3.10 dan menginstal dependensi.
- Menginstal Flash Attention untuk kinerja yang dioptimalkan.
- Mengunduh model HunyuanVideo-1.5 yang telah dilatih sebelumnya dan checkpoint WorldPlay tertentu.
- Menjalankan skrip inferensi yang disediakan (
generate.pyataugenerate_custom_trajectory.pyuntuk jalur kamera khusus).
Kode ini mendukung inferensi dengan varian model yang berbeda: dua arah, autoregresif, dan model autoregresif yang disuling untuk kecepatan maksimum.
Kesimpulan dan Pekerjaan Masa Depan#
HY-World 1.5 (WorldPlay) mewakili tonggak penting dalam pembuatan dan simulasi konten berbasis AI. Dengan secara sistematis mengatasi hambatan kecepatan dan konsistensi, ia membuka kemungkinan baru untuk aplikasi real-time dan interaktif dalam game, virtual reality, dan visualisasi arsitektur.
Tim telah mengindikasikan bahwa kode pelatihan masih dalam daftar TODO untuk open-sourcing, yang akan menjadi langkah selanjutnya yang penting bagi komunitas riset untuk membangun pekerjaan ini. Untuk saat ini, rilis model dan kode inferensi adalah kontribusi besar yang memungkinkan semua orang untuk mengalami dan melakukan benchmark model dunia interaktif state-of-the-art ini.
Pelajari Lebih Lanjut:
- Repositori GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Laporan Teknis & Makalah: Periksa repositori untuk tautan ke laporan teknis terperinci dan makalah penelitian.



