การแสวงหา AI ที่สามารถสร้างและจำลองโลกที่สอดคล้องและมีการโต้ตอบได้แบบเรียลไทม์ได้ก้าวกระโดดไปข้างหน้าอย่างมาก เมื่อวันที่ 17 ธันวาคม 2025 ทีม Hunyuan ของ Tencent ได้เปิดตัวโอเพนซอร์ส HY-World 1.5 ซึ่งมีชื่อรหัสว่า WorldPlay นี่ไม่ใช่แค่การอัปเดตเพิ่มเติม แต่เป็นเฟรมเวิร์กที่ครอบคลุมซึ่งอ้างว่าสามารถแก้ไขข้อแลกเปลี่ยนพื้นฐานระหว่างความเร็ว หน่วยความจำ และความสอดคล้องในระยะยาวในการสร้างแบบจำลองโลก
กล่าวโดยสรุป WorldPlay ช่วยให้สามารถสร้างวิดีโอสตรีมมิ่งแบบโต้ตอบในแนวนอนยาวได้อย่างน่าทึ่งที่ 24 FPS ทั้งหมดนี้ในขณะที่ยังคงรักษาความสอดคล้องทางเรขาคณิตเมื่อเวลาผ่านไป มาเจาะลึกสิ่งที่ทำให้โมเดลนี้ปฏิวัติวงการ
ปัญหาหลัก: ความเร็ว vs. ความสอดคล้อง#
โมเดลโลกก่อนหน้านี้ รวมถึง HY-World 1.0 ของทีมเอง มักเผชิญกับข้อจำกัดที่สำคัญ พวกเขาสามารถสร้างโลก 3 มิติที่น่าประทับใจได้ แต่โดยทั่วไปแล้วผ่านกระบวนการออฟไลน์ที่ช้า การบรรลุการโต้ตอบแบบเรียลไทม์หมายถึงการเสียสละความสอดคล้องในระยะยาวของสภาพแวดล้อม วัตถุจะเปลี่ยนรูปร่าง พื้นผิวจะกะพริบ และรูปทรงเรขาคณิตจะเลื่อนไปตามกาลเวลา WorldPlay มีเป้าหมายที่จะทำลายข้อแลกเปลี่ยนนี้
สี่เสาหลักของสถาปัตยกรรม WorldPlay#
ความก้าวหน้าขับเคลื่อนโดยนวัตกรรมทางเทคนิคที่สำคัญสี่ประการ:
-
Dual Action Representation: นี่คือ "ตัวควบคุม" ของโมเดล มันแปลอินพุตของผู้ใช้ (เช่น การเคลื่อนไหวของแป้นพิมพ์และเมาส์) ให้เป็นพื้นที่การกระทำที่แข็งแกร่งและโมเดลเข้าใจได้ ซึ่งช่วยให้สามารถควบคุมมุมมองของโลกที่สร้างขึ้นได้อย่างแม่นยำและตอบสนองได้ดี
-
Reconstituted Context Memory: นี่คือหัวใจสำคัญของความสอดคล้องในระยะยาว เพื่อป้องกันไม่ให้โมเดล "ลืม" อดีต โมดูลนี้จะสร้างบริบทใหม่แบบไดนามิกจากส่วนวิดีโอที่สร้างขึ้นก่อนหน้านี้ มันใช้เทคนิคที่ชาญฉลาดที่เรียกว่า temporal reframing เพื่อให้เฟรมที่สำคัญทางเรขาคณิตจากอดีตที่ห่างไกลสามารถเข้าถึงได้ ซึ่งแก้ปัญหาการลดทอนหน่วยความจำได้อย่างมีประสิทธิภาพ
-
WorldCompass: เฟรมเวิร์กการฝึกอบรมหลัง RL แบบใหม่: หลังจากการฝึกอบรมเบื้องต้น โมเดลจะผ่านเฟสการเรียนรู้เสริมกำลัง (RL) ที่ออกแบบมาโดยเฉพาะสำหรับงานในแนวนอนยาว WorldCompass ปรับโมเดลให้เหมาะสมโดยตรงเพื่อการติดตามการกระทำที่ดีขึ้นและคุณภาพของภาพที่สูงขึ้นเมื่อเทียบกับลำดับที่ขยายออกไป ทำให้มั่นใจได้ว่าเอาต์พุตยังคงมีเสถียรภาพและสอดคล้องกัน
-
Context Forcing: Memory-Aware Distillation: เพื่อให้ได้ความเร็วแบบเรียลไทม์ โมเดล "นักเรียน" ที่เล็กลงและเร็วกว่ามักจะถูกกลั่นจากโมเดล "ครู" ที่ใหญ่กว่า อย่างไรก็ตาม การกลั่นแบบมาตรฐานอาจทำให้ผู้เรียนสูญเสียความสามารถในการใช้บริบทระยะยาว Context Forcing เป็นวิธีการกลั่นแบบใหม่ที่ปรับบริบทหน่วยความจำระหว่างครูและนักเรียนให้สอดคล้องกัน โดยรักษาความสามารถของผู้เรียนในการให้เหตุผลในระยะยาวในขณะที่เปิดใช้งานการสร้าง 24 FPS
คุณสมบัติและความสามารถหลัก#
- เรียลไทม์และโต้ตอบได้: สร้างสตรีมวิดีโอที่ 24 FPS ช่วยให้สามารถโต้ตอบสดตามอินพุตของผู้ใช้
- ความสอดคล้องทางเรขาคณิตในระยะยาว: รักษาความเสถียรและความสอดคล้องของโครงสร้างของโลกในช่วงขอบฟ้าการสร้างที่ยาวนาน
- แอปพลิเคชันที่หลากหลาย: รองรับมุมมองบุคคลที่หนึ่งและบุคคลที่สามในสภาพแวดล้อมจริงและสภาพแวดล้อมที่มีสไตล์ แอปพลิเคชันที่มีศักยภาพ ได้แก่ การสร้างใหม่ 3 มิติแบบโต้ตอบ เหตุการณ์ที่แจ้งได้ (เช่น "ทำให้ฝนตก") และการขยายโลกที่ไม่มีที่สิ้นสุด
- การเปิดตัวโอเพนซอร์สที่ครอบคลุม: ทีมงานได้เปิดตัวโอเพนซอร์สไม่เพียงแต่น้ำหนักของโมเดลเท่านั้น แต่ยังรวมถึงเฟรมเวิร์กแบบเต็มสแต็กที่ครอบคลุมข้อมูล การฝึกอบรม และการปรับใช้การอนุมาน
ความเหนือกว่าเชิงปริมาณ#
ประสิทธิภาพของโมเดลได้รับการสนับสนุนโดยการประเมินอย่างกว้างขวาง ดังที่แสดงในตารางด้านล่าง โมเดล WorldPlay แบบเต็ม ("Ours (full)") มีประสิทธิภาพเหนือกว่าวิธีการที่ล้ำสมัยที่มีอยู่ในการวัดผลที่สำคัญ เช่น PSNR, SSIM และ LPIPS โดยเฉพาะอย่างยิ่งในสถานการณ์ระยะยาว ในขณะที่เป็นเพียงวิธีเดียวที่ทำงานในแบบเรียลไทม์
| โมเดล | เรียลไทม์ | PSNR/SSIM/LPIPS ระยะสั้น | PSNR/SSIM/LPIPS ระยะยาว |
|---|---|---|---|
| CameraCtrl | ❌ | 17.93 / 0.569 / 0.298 | 10.09 / 0.241 / 0.549 |
| Gen3C | ❌ | 21.68 / 0.635 / 0.278 | 15.37 / 0.431 / 0.483 |
| Matrix-Game-2.0 | ✅ | 17.26 / 0.505 / 0.383 | 9.57 / 0.205 / 0.631 |
| Ours (full) | ✅ | 21.92 / 0.702 / 0.247 | 18.94 / 0.585 / 0.371 |
เริ่มต้นใช้งาน WorldPlay#
สำหรับนักพัฒนาที่กระตือรือร้นที่จะทดลองใช้ ที่เก็บมีเส้นทางที่ชัดเจนในการเริ่มต้นอย่างรวดเร็ว โมเดลนี้สร้างขึ้นบนโมเดลพื้นฐาน HunyuanVideo-1.5 ที่ทรงพลัง การตั้งค่าเกี่ยวข้องกับ:
- การสร้างสภาพแวดล้อม Python 3.10 และการติดตั้ง dependencies
- การติดตั้ง Flash Attention เพื่อประสิทธิภาพที่ดีที่สุด
- การดาวน์โหลดโมเดล HunyuanVideo-1.5 ที่ฝึกอบรมไว้ล่วงหน้าและจุดตรวจสอบ WorldPlay เฉพาะ
- การรันสคริปต์การอนุมานที่ให้มา (
generate.pyหรือgenerate_custom_trajectory.pyสำหรับเส้นทางกล้องที่กำหนดเอง)
โค้ดรองรับการอนุมานด้วยตัวแปรโมเดลที่แตกต่างกัน: แบบสองทิศทาง แบบ autoregressive และโมเดล autoregressive ที่กลั่นแล้วเพื่อความเร็วสูงสุด
บทสรุปและงานในอนาคต#
HY-World 1.5 (WorldPlay) แสดงถึงเหตุการณ์สำคัญในการสร้างเนื้อหาและการจำลองที่ขับเคลื่อนด้วย AI ด้วยการจัดการกับปัญหาคอขวดของความเร็วและความสอดคล้องอย่างเป็นระบบ ทำให้เกิดความเป็นไปได้ใหม่ๆ สำหรับแอปพลิเคชันแบบเรียลไทม์และแบบโต้ตอบในเกม ความเป็นจริงเสมือน และการสร้างภาพสถาปัตยกรรม
ทีมงานได้ระบุว่า โค้ดการฝึกอบรม ยังอยู่ในรายการสิ่งที่ต้องทำสำหรับการเปิดตัวโอเพนซอร์ส ซึ่งจะเป็นขั้นตอนต่อไปที่สำคัญสำหรับชุมชนวิจัยในการสร้างต่อยอดจากงานนี้ สำหรับตอนนี้ การเปิดตัวโมเดลและโค้ดการอนุมานเป็นการมีส่วนร่วมครั้งใหญ่ที่ช่วยให้ทุกคนได้สัมผัสและเปรียบเทียบเกณฑ์มาตรฐานโมเดลโลกแบบโต้ตอบที่ล้ำสมัยนี้
เรียนรู้เพิ่มเติม:
- ที่เก็บ GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
- รายงานทางเทคนิคและเอกสาร: ตรวจสอบที่เก็บสำหรับลิงก์ไปยังรายงานทางเทคนิคโดยละเอียดและเอกสารวิจัย



