HY-World 1.5 (WorldPlay): ตัวเปลี่ยนเกมสำหรับโมเดลโลกแบบโต้ตอบแบบเรียลไทม์

HY-World 1.5 (WorldPlay): ตัวเปลี่ยนเกมสำหรับโมเดลโลกแบบโต้ตอบแบบเรียลไทม์

4 min read

การแสวงหา AI ที่สามารถสร้างและจำลองโลกที่สอดคล้องและมีการโต้ตอบได้แบบเรียลไทม์ได้ก้าวกระโดดไปข้างหน้าอย่างมาก เมื่อวันที่ 17 ธันวาคม 2025 ทีม Hunyuan ของ Tencent ได้เปิดตัวโอเพนซอร์ส HY-World 1.5 ซึ่งมีชื่อรหัสว่า WorldPlay นี่ไม่ใช่แค่การอัปเดตเพิ่มเติม แต่เป็นเฟรมเวิร์กที่ครอบคลุมซึ่งอ้างว่าสามารถแก้ไขข้อแลกเปลี่ยนพื้นฐานระหว่างความเร็ว หน่วยความจำ และความสอดคล้องในระยะยาวในการสร้างแบบจำลองโลก

กล่าวโดยสรุป WorldPlay ช่วยให้สามารถสร้างวิดีโอสตรีมมิ่งแบบโต้ตอบในแนวนอนยาวได้อย่างน่าทึ่งที่ 24 FPS ทั้งหมดนี้ในขณะที่ยังคงรักษาความสอดคล้องทางเรขาคณิตเมื่อเวลาผ่านไป มาเจาะลึกสิ่งที่ทำให้โมเดลนี้ปฏิวัติวงการ

ปัญหาหลัก: ความเร็ว vs. ความสอดคล้อง#

โมเดลโลกก่อนหน้านี้ รวมถึง HY-World 1.0 ของทีมเอง มักเผชิญกับข้อจำกัดที่สำคัญ พวกเขาสามารถสร้างโลก 3 มิติที่น่าประทับใจได้ แต่โดยทั่วไปแล้วผ่านกระบวนการออฟไลน์ที่ช้า การบรรลุการโต้ตอบแบบเรียลไทม์หมายถึงการเสียสละความสอดคล้องในระยะยาวของสภาพแวดล้อม วัตถุจะเปลี่ยนรูปร่าง พื้นผิวจะกะพริบ และรูปทรงเรขาคณิตจะเลื่อนไปตามกาลเวลา WorldPlay มีเป้าหมายที่จะทำลายข้อแลกเปลี่ยนนี้

สี่เสาหลักของสถาปัตยกรรม WorldPlay#

ความก้าวหน้าขับเคลื่อนโดยนวัตกรรมทางเทคนิคที่สำคัญสี่ประการ:

  1. Dual Action Representation: นี่คือ "ตัวควบคุม" ของโมเดล มันแปลอินพุตของผู้ใช้ (เช่น การเคลื่อนไหวของแป้นพิมพ์และเมาส์) ให้เป็นพื้นที่การกระทำที่แข็งแกร่งและโมเดลเข้าใจได้ ซึ่งช่วยให้สามารถควบคุมมุมมองของโลกที่สร้างขึ้นได้อย่างแม่นยำและตอบสนองได้ดี

  2. Reconstituted Context Memory: นี่คือหัวใจสำคัญของความสอดคล้องในระยะยาว เพื่อป้องกันไม่ให้โมเดล "ลืม" อดีต โมดูลนี้จะสร้างบริบทใหม่แบบไดนามิกจากส่วนวิดีโอที่สร้างขึ้นก่อนหน้านี้ มันใช้เทคนิคที่ชาญฉลาดที่เรียกว่า temporal reframing เพื่อให้เฟรมที่สำคัญทางเรขาคณิตจากอดีตที่ห่างไกลสามารถเข้าถึงได้ ซึ่งแก้ปัญหาการลดทอนหน่วยความจำได้อย่างมีประสิทธิภาพ

  3. WorldCompass: เฟรมเวิร์กการฝึกอบรมหลัง RL แบบใหม่: หลังจากการฝึกอบรมเบื้องต้น โมเดลจะผ่านเฟสการเรียนรู้เสริมกำลัง (RL) ที่ออกแบบมาโดยเฉพาะสำหรับงานในแนวนอนยาว WorldCompass ปรับโมเดลให้เหมาะสมโดยตรงเพื่อการติดตามการกระทำที่ดีขึ้นและคุณภาพของภาพที่สูงขึ้นเมื่อเทียบกับลำดับที่ขยายออกไป ทำให้มั่นใจได้ว่าเอาต์พุตยังคงมีเสถียรภาพและสอดคล้องกัน

  4. Context Forcing: Memory-Aware Distillation: เพื่อให้ได้ความเร็วแบบเรียลไทม์ โมเดล "นักเรียน" ที่เล็กลงและเร็วกว่ามักจะถูกกลั่นจากโมเดล "ครู" ที่ใหญ่กว่า อย่างไรก็ตาม การกลั่นแบบมาตรฐานอาจทำให้ผู้เรียนสูญเสียความสามารถในการใช้บริบทระยะยาว Context Forcing เป็นวิธีการกลั่นแบบใหม่ที่ปรับบริบทหน่วยความจำระหว่างครูและนักเรียนให้สอดคล้องกัน โดยรักษาความสามารถของผู้เรียนในการให้เหตุผลในระยะยาวในขณะที่เปิดใช้งานการสร้าง 24 FPS

คุณสมบัติและความสามารถหลัก#

  • เรียลไทม์และโต้ตอบได้: สร้างสตรีมวิดีโอที่ 24 FPS ช่วยให้สามารถโต้ตอบสดตามอินพุตของผู้ใช้
  • ความสอดคล้องทางเรขาคณิตในระยะยาว: รักษาความเสถียรและความสอดคล้องของโครงสร้างของโลกในช่วงขอบฟ้าการสร้างที่ยาวนาน
  • แอปพลิเคชันที่หลากหลาย: รองรับมุมมองบุคคลที่หนึ่งและบุคคลที่สามในสภาพแวดล้อมจริงและสภาพแวดล้อมที่มีสไตล์ แอปพลิเคชันที่มีศักยภาพ ได้แก่ การสร้างใหม่ 3 มิติแบบโต้ตอบ เหตุการณ์ที่แจ้งได้ (เช่น "ทำให้ฝนตก") และการขยายโลกที่ไม่มีที่สิ้นสุด
  • การเปิดตัวโอเพนซอร์สที่ครอบคลุม: ทีมงานได้เปิดตัวโอเพนซอร์สไม่เพียงแต่น้ำหนักของโมเดลเท่านั้น แต่ยังรวมถึงเฟรมเวิร์กแบบเต็มสแต็กที่ครอบคลุมข้อมูล การฝึกอบรม และการปรับใช้การอนุมาน

ความเหนือกว่าเชิงปริมาณ#

ประสิทธิภาพของโมเดลได้รับการสนับสนุนโดยการประเมินอย่างกว้างขวาง ดังที่แสดงในตารางด้านล่าง โมเดล WorldPlay แบบเต็ม ("Ours (full)") มีประสิทธิภาพเหนือกว่าวิธีการที่ล้ำสมัยที่มีอยู่ในการวัดผลที่สำคัญ เช่น PSNR, SSIM และ LPIPS โดยเฉพาะอย่างยิ่งในสถานการณ์ระยะยาว ในขณะที่เป็นเพียงวิธีเดียวที่ทำงานในแบบเรียลไทม์

โมเดลเรียลไทม์PSNR/SSIM/LPIPS ระยะสั้นPSNR/SSIM/LPIPS ระยะยาว
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
Ours (full)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

เริ่มต้นใช้งาน WorldPlay#

สำหรับนักพัฒนาที่กระตือรือร้นที่จะทดลองใช้ ที่เก็บมีเส้นทางที่ชัดเจนในการเริ่มต้นอย่างรวดเร็ว โมเดลนี้สร้างขึ้นบนโมเดลพื้นฐาน HunyuanVideo-1.5 ที่ทรงพลัง การตั้งค่าเกี่ยวข้องกับ:

  1. การสร้างสภาพแวดล้อม Python 3.10 และการติดตั้ง dependencies
  2. การติดตั้ง Flash Attention เพื่อประสิทธิภาพที่ดีที่สุด
  3. การดาวน์โหลดโมเดล HunyuanVideo-1.5 ที่ฝึกอบรมไว้ล่วงหน้าและจุดตรวจสอบ WorldPlay เฉพาะ
  4. การรันสคริปต์การอนุมานที่ให้มา (generate.py หรือ generate_custom_trajectory.py สำหรับเส้นทางกล้องที่กำหนดเอง)

โค้ดรองรับการอนุมานด้วยตัวแปรโมเดลที่แตกต่างกัน: แบบสองทิศทาง แบบ autoregressive และโมเดล autoregressive ที่กลั่นแล้วเพื่อความเร็วสูงสุด

บทสรุปและงานในอนาคต#

HY-World 1.5 (WorldPlay) แสดงถึงเหตุการณ์สำคัญในการสร้างเนื้อหาและการจำลองที่ขับเคลื่อนด้วย AI ด้วยการจัดการกับปัญหาคอขวดของความเร็วและความสอดคล้องอย่างเป็นระบบ ทำให้เกิดความเป็นไปได้ใหม่ๆ สำหรับแอปพลิเคชันแบบเรียลไทม์และแบบโต้ตอบในเกม ความเป็นจริงเสมือน และการสร้างภาพสถาปัตยกรรม

ทีมงานได้ระบุว่า โค้ดการฝึกอบรม ยังอยู่ในรายการสิ่งที่ต้องทำสำหรับการเปิดตัวโอเพนซอร์ส ซึ่งจะเป็นขั้นตอนต่อไปที่สำคัญสำหรับชุมชนวิจัยในการสร้างต่อยอดจากงานนี้ สำหรับตอนนี้ การเปิดตัวโมเดลและโค้ดการอนุมานเป็นการมีส่วนร่วมครั้งใหญ่ที่ช่วยให้ทุกคนได้สัมผัสและเปรียบเทียบเกณฑ์มาตรฐานโมเดลโลกแบบโต้ตอบที่ล้ำสมัยนี้

เรียนรู้เพิ่มเติม:

  • ที่เก็บ GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
  • รายงานทางเทคนิคและเอกสาร: ตรวจสอบที่เก็บสำหรับลิงก์ไปยังรายงานทางเทคนิคโดยละเอียดและเอกสารวิจัย
S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles