HY-World 1.5 (WorldPlay): تغيير قواعد اللعبة لنماذج العالم التفاعلية في الوقت الفعلي

HY-World 1.5 (WorldPlay): تغيير قواعد اللعبة لنماذج العالم التفاعلية في الوقت الفعلي

4 min read

لقد خطت رحلة البحث عن الذكاء الاصطناعي القادر على توليد ومحاكاة عوالم تفاعلية متسقة في الوقت الفعلي قفزة هائلة إلى الأمام. في 17 ديسمبر 2025، قام فريق Hunyuan التابع لشركة Tencent بفتح مصدر HY-World 1.5، الذي يحمل الاسم الرمزي WorldPlay. هذا ليس مجرد تحديث تدريجي؛ بل هو إطار عمل شامل يدعي حل المفاضلة الأساسية بين السرعة والذاكرة والاتساق طويل الأجل في نمذجة العالم.

باختصار، يمكّن WorldPlay من إنشاء فيديو متدفق تفاعلي طويل الأمد بمعدل مذهل قدره 24 إطارًا في الثانية، مع الحفاظ على الاتساق الهندسي بمرور الوقت. دعنا نتعمق في ما يجعل هذا النموذج ثوريًا للغاية.

المشكلة الأساسية: السرعة مقابل الاتساق#

غالبًا ما واجهت نماذج العالم السابقة، بما في ذلك HY-World 1.0 الخاص بالفريق، قيودًا حرجة. يمكنهم إنشاء عوالم ثلاثية الأبعاد مثيرة للإعجاب ولكن عادةً من خلال عملية بطيئة وغير متصلة بالإنترنت. تحقيق التفاعل في الوقت الفعلي يعني التضحية بالاتساق طويل الأجل للبيئة - حيث تتغير الأشكال، وتومض الأنسجة، وينجرف الشكل الهندسي بمرور الوقت. يهدف WorldPlay إلى تحطيم هذا الحل الوسط.

الركائز الأربع لبنية WorldPlay#

يتم تشغيل هذا الاختراق من خلال أربعة ابتكارات تقنية رئيسية:

  1. تمثيل الفعل المزدوج: هذا هو "وحدة التحكم" في النموذج. يترجم مدخلات المستخدم (مثل حركات لوحة المفاتيح والماوس) إلى مساحة عمل قوية وقابلة للفهم للنموذج تسمح بتحكم دقيق وسريع الاستجابة في وجهة نظر العالم الذي تم إنشاؤه.

  2. ذاكرة السياق المعاد تكوينها: هذا هو جوهر الاتساق طويل الأجل. لمنع النموذج من "نسيان" الماضي، تقوم هذه الوحدة بإعادة بناء السياق ديناميكيًا من أجزاء الفيديو التي تم إنشاؤها مسبقًا. يستخدم تقنية ذكية تسمى إعادة التأطير الزمني للحفاظ على إمكانية الوصول إلى الإطارات المهمة هندسيًا من الماضي البعيد، مما يحل بشكل فعال مشكلة تخفيف الذاكرة.

  3. WorldCompass: إطار عمل جديد للتعلم المعزز بعد التدريب: بعد التدريب الأولي، يخضع النموذج لمرحلة التعلم المعزز (RL) المصممة خصيصًا للمهام طويلة الأمد. يعمل WorldCompass على تحسين النموذج بشكل مباشر لتحسين متابعة الإجراءات وجودة بصرية أعلى عبر تسلسلات ممتدة، مما يضمن بقاء الإخراج مستقرًا ومتماسكًا.

  4. فرض السياق: التقطير المدرك للذاكرة: لتحقيق سرعات في الوقت الفعلي، غالبًا ما يتم تقطير نموذج "طالب" أصغر وأسرع من نموذج "معلم" أكبر. ومع ذلك، يمكن أن يتسبب التقطير القياسي في فقدان الطالب لقدرته على استخدام سياق طويل المدى. فرض السياق هو طريقة تقطير جديدة تعمل على محاذاة سياق الذاكرة بين المعلم والطالب، مما يحافظ على قدرة الطالب على التفكير طويل الأجل مع تمكين إنشاء 24 إطارًا في الثانية.

الميزات والقدرات الرئيسية#

  • في الوقت الفعلي وتفاعلي: يقوم بإنشاء تدفقات فيديو بمعدل 24 إطارًا في الثانية، مما يسمح بالتفاعل المباشر بناءً على مدخلات المستخدم.
  • الاتساق الهندسي طويل الأجل: يحافظ على استقرار وتماسك هيكل العالم على مدى آفاق توليد طويلة.
  • تطبيقات متعددة الاستخدامات: يدعم كلاً من منظور الشخص الأول ومنظور الشخص الثالث في البيئات الواقعية والمنمقة. تشمل التطبيقات المحتملة إعادة البناء التفاعلية ثلاثية الأبعاد، والأحداث القابلة للتوجيه (مثل "اجعلها تمطر")، وتوسيع العالم اللانهائي.
  • إصدار شامل مفتوح المصدر: لم يقم الفريق بفتح مصدر أوزان النموذج فحسب، بل أيضًا إطار عمل كامل المكدس يغطي البيانات والتدريب ونشر الاستدلال.

التفوق الكمي#

يتم دعم أداء النموذج بتقييمات مكثفة. كما هو موضح في الجدول أدناه، فإن نموذج WorldPlay الكامل ("خاصتنا (كامل)") يتفوق على الأساليب الحديثة الحالية عبر المقاييس الرئيسية مثل PSNR و SSIM و LPIPS، خاصة في السيناريوهات طويلة الأجل، مع كونه الوحيد الذي يعمل في الوقت الفعلي.

النموذجفي الوقت الفعليPSNR/SSIM/LPIPS قصير الأجلPSNR/SSIM/LPIPS طويل الأجل
CameraCtrl17.93 / 0.569 / 0.29810.09 / 0.241 / 0.549
Gen3C21.68 / 0.635 / 0.27815.37 / 0.431 / 0.483
Matrix-Game-2.017.26 / 0.505 / 0.3839.57 / 0.205 / 0.631
خاصتنا (كامل)21.92 / 0.702 / 0.24718.94 / 0.585 / 0.371

البدء في استخدام WorldPlay#

بالنسبة للمطورين المتحمسين للتجربة، يوفر المستودع مسارًا واضحًا للبدء السريع. تم بناء النموذج على النموذج الأساسي القوي HunyuanVideo-1.5. يتضمن الإعداد ما يلي:

  1. إنشاء بيئة Python 3.10 وتثبيت التبعيات.
  2. تثبيت Flash Attention لتحسين الأداء.
  3. تنزيل نموذج HunyuanVideo-1.5 المدرب مسبقًا ونقاط تفتيش WorldPlay المحددة.
  4. تشغيل نصوص الاستدلال المتوفرة (generate.py أو generate_custom_trajectory.py لمسارات الكاميرا المخصصة).

يدعم الكود الاستدلال بمتغيرات نموذجية مختلفة: ثنائية الاتجاه، ذاتية الانحدار، ونموذج ذاتي الانحدار المقطر لتحقيق أقصى سرعة.

الخلاصة والعمل المستقبلي#

يمثل HY-World 1.5 (WorldPlay) علامة فارقة مهمة في إنشاء المحتوى والمحاكاة المدفوعة بالذكاء الاصطناعي. من خلال المعالجة المنهجية للاختناقات في السرعة والاتساق، فإنه يفتح إمكانيات جديدة للتطبيقات التفاعلية في الوقت الفعلي في الألعاب والواقع الافتراضي والتصور المعماري.

أشار الفريق إلى أن كود التدريب لا يزال في قائمة المهام لفتح المصدر، والذي سيكون خطوة تالية حاسمة لمجتمع البحث للبناء على هذا العمل. في الوقت الحالي، يعد إصدار النماذج وكود الاستدلال مساهمة ضخمة تسمح للجميع بتجربة وقياس هذا النموذج العالمي التفاعلي الحديث.

اعرف المزيد:

  • مستودع GitHub: https://github.com/Tencent-Hunyuan/HY-WorldPlay
  • التقرير الفني والورقة البحثية: تحقق من المستودع للحصول على روابط للتقرير الفني المفصل والأوراق البحثية.
S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles