Gerçek zamanlı, tutarlı ve etkileşimli dünyalar üretebilen ve simüle edebilen bir yapay zeka arayışı, devasa bir sıçrama kaydetti. 17 Aralık 2025'te Tencent'in Hunyuan ekibi, WorldPlay kod adlı HY-World 1.5'i açık kaynaklı hale getirdi. Bu sadece aşamalı bir güncelleme değil; dünya modellemesinde hız, bellek ve uzun vadeli tutarlılık arasındaki temel ödünleşmeyi çözdüğünü iddia eden kapsamlı bir çerçeve.
Kısacası, WorldPlay, geometrik tutarlılığı zaman içinde korurken, çarpıcı bir 24 FPS hızında uzun ufuklu, etkileşimli akışlı video üretilmesini sağlıyor. Bu modeli bu kadar devrimci yapan şeylere dalalım.
Temel Sorun: Hız ve Tutarlılık#
Ekibin kendi HY-World 1.0'ı da dahil olmak üzere önceki dünya modelleri, genellikle kritik bir sınırlamayla karşı karşıyaydı. Etkileyici 3D dünyalar üretebiliyorlardı, ancak tipik olarak yavaş, çevrimdışı bir süreçle. Gerçek zamanlı etkileşim elde etmek, ortamın uzun vadeli tutarlılığından ödün vermek anlamına geliyordu; nesneler şekil değiştiriyor, dokular titriyor ve geometri zamanla kayıyordu. WorldPlay bu uzlaşmayı yıkmayı hedefliyor.
WorldPlay'in Mimarinin Dört Temel Direği#
Bu atılım, dört temel teknik yenilikle destekleniyor:
-
Çift Eylem Temsili: Bu, modelin "denetleyicisidir". Kullanıcı girdilerini (klavye ve fare hareketleri gibi), oluşturulan dünyanın bakış açısı üzerinde hassas ve duyarlı kontrol sağlayan sağlam, model tarafından anlaşılabilir bir eylem alanına çevirir.
-
Yeniden Oluşturulmuş Bağlam Belleği: Bu, uzun vadeli tutarlılığın özüdür. Modelin geçmişi "unutmasını" önlemek için bu modül, önceden oluşturulmuş video parçalarından bağlamı dinamik olarak yeniden oluşturur. Geometrik olarak önemli kareleri uzak geçmişten erişilebilir tutmak için zamansal yeniden çerçeveleme adı verilen akıllıca bir teknik kullanır ve bellek zayıflaması sorununu etkili bir şekilde çözer.
-
WorldCompass: Yeni Bir RL Sonrası Eğitim Çerçevesi: İlk eğitimden sonra, model özellikle uzun ufuklu görevler için tasarlanmış bir takviyeli öğrenme (RL) aşamasından geçer. WorldCompass, daha iyi eylem takibi ve uzun dizilerde daha yüksek görsel kalite için modeli doğrudan optimize ederek çıktının kararlı ve tutarlı kalmasını sağlar.
-
Bağlam Zorlama: Bellek Farkındalıklı Damıtma: Gerçek zamanlı hızlara ulaşmak için, daha küçük, daha hızlı bir "öğrenci" modeli genellikle daha büyük bir "öğretmen" modelinden damıtılır. Ancak, standart damıtma, öğrencinin uzun menzilli bağlamı kullanma yeteneğini kaybetmesine neden olabilir. Bağlam Zorlama, öğretmen ve öğrenci arasındaki bellek bağlamını hizalayan, öğrencinin uzun vadeli akıl yürütme kapasitesini korurken 24 FPS üretimi sağlayan yeni bir damıtma yöntemidir.
Temel Özellikler ve Yetenekler#
- Gerçek Zamanlı ve Etkileşimli: Kullanıcı girdisine dayalı canlı etkileşime izin veren 24 FPS'de video akışları oluşturur.
- Uzun Vadeli Geometrik Tutarlılık: Dünyanın yapısının kararlılığını ve tutarlılığını uzun üretim ufuklarında korur.
- Çok Yönlü Uygulamalar: Gerçek dünya ve stilize ortamlarda hem birinci şahıs hem de üçüncü şahıs perspektiflerini destekler. Potansiyel uygulamalar arasında etkileşimli 3D rekonstrüksiyon, istemlenebilir olaylar (örneğin, "yağmur yağdır") ve sonsuz dünya genişletme bulunur.
- Kapsamlı Açık Kaynak Sürümü: Ekip, yalnızca model ağırlıklarını değil, aynı zamanda verileri, eğitimi ve çıkarım dağıtımını kapsayan tam yığın bir çerçeveyi de açık kaynaklı hale getirdi.
Nicel Üstünlük#
Modelin performansı, kapsamlı değerlendirmelerle desteklenmektedir. Aşağıdaki tabloda gösterildiği gibi, tam WorldPlay modeli ("Bizimki (tam)"), özellikle uzun vadeli senaryolarda, gerçek zamanlı olarak çalışan tek model olmasına rağmen, PSNR, SSIM ve LPIPS gibi temel metriklerde mevcut en son yöntemlerden daha iyi performans gösteriyor.
| Model | Gerçek Zamanlı | Kısa Vadeli PSNR/SSIM/LPIPS | Uzun Vadeli PSNR/SSIM/LPIPS |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Bizimki (tam) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
WorldPlay'e Başlarken#
Deney yapmak isteyen geliştiriciler için, depo hızlı bir başlangıç için net bir yol sunuyor. Model, güçlü HunyuanVideo-1.5 temel modeli üzerine inşa edilmiştir. Kurulum şunları içerir:
- Bir Python 3.10 ortamı oluşturma ve bağımlılıkları yükleme.
- Optimize edilmiş performans için Flash Attention'ı yükleme.
- Önceden eğitilmiş HunyuanVideo-1.5 modelini ve belirli WorldPlay kontrol noktalarını indirme.
- Sağlanan çıkarım komut dosyalarını çalıştırma (
generate.pyveya özel kamera yolları içingenerate_custom_trajectory.py).
Kod, farklı model varyantlarıyla çıkarımı destekler: çift yönlü, otoregresif ve maksimum hız için damıtılmış otoregresif model.
Sonuç ve Gelecek Çalışmalar#
HY-World 1.5 (WorldPlay), yapay zeka odaklı içerik oluşturma ve simülasyonda önemli bir kilometre taşını temsil ediyor. Hız ve tutarlılık darboğazlarını sistematik olarak ele alarak, oyun, sanal gerçeklik ve mimari görselleştirmede gerçek zamanlı, etkileşimli uygulamalar için yeni olanaklar sunuyor.
Ekip, eğitim kodunun hala açık kaynaklı hale getirme için yapılacaklar listesinde olduğunu ve bunun araştırma topluluğunun bu çalışma üzerine inşa etmesi için çok önemli bir sonraki adım olacağını belirtti. Şimdilik, modellerin ve çıkarım kodunun yayınlanması, herkesin bu son teknoloji etkileşimli dünya modelini deneyimlemesine ve kıyaslamasına olanak tanıyan büyük bir katkıdır.
Daha Fazla Bilgi Edinin:
- GitHub Deposu: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- Teknik Rapor ve Makale: Ayrıntılı teknik rapor ve araştırma makalelerine bağlantılar için depoyu kontrol edin.



