VibeVoice Realtime: محرك TTS منخفض الكمون الذي كان ينتظره منشئو المحتوى

لماذا يعتبر VibeVoice Realtime مهمًا للمبدعين الآن#

إذا كنت تقوم بإنشاء محتوى، فالسرعة هي كل شيء. عندما تقوم بتحرير مقطع فيديو، أو تكرار تصميم، أو اختبار نموذج لعبة، أو تسجيل بودكاست، أو صياغة نص، فإن انتظار أدوات تحويل النص إلى كلام (TTS) البطيئة يقطع تدفق عملك. تم تصميم VibeVoice Realtime لإصلاح ذلك. تم تطوير VibeVoice Realtime بواسطة Microsoft وتم إصداره كنموذج مفتوح المصدر، وهو يوفر أول كلام مسموع في حوالي 300 مللي ثانية (يعتمد على الجهاز) مع إدخال نص متدفق وإنشاء كلام قوي طويل الشكل. بالنسبة لمنشئي المحتوى، هذا يعني السرد المباشر، ومعاينات الحوار الفورية، والواجهات الموجهة بالصوت، والوكلاء الذين يتحدثون بالذكاء الاصطناعي من أول رموزهم - دون تأخير.

في هذا التحليل المتعمق، سنستكشف ماهية VibeVoice Realtime، وكيف تحقق مثل هذا الكمون المنخفض، وأين تتألق، وكيفية دمجها في سير عملك، وكيفية استخدامها بمسؤولية. سواء كنت محرر فيديو أو مصممًا أو كاتبًا أو ممثلًا صوتيًا أو مطورًا يقوم ببناء وسائط تفاعلية، يمكن لـ VibeVoice Realtime تسريع دورتك الإبداعية بشكل كبير.

ما هو VibeVoice Realtime؟#

VibeVoice Realtime هو نموذج لتحويل النص إلى كلام في الوقت الفعلي مُحسَّن للكمون المنخفض للغاية والإدخال المتدفق. إنه إدخال 0.5B-parameter في عائلة VibeVoice وهو مناسب بشكل خاص للتطبيقات التفاعلية وسير العمل على غرار الوكيل حيث تكون الاستجابة السريعة أمرًا بالغ الأهمية.

الخصائص الرئيسية لـ VibeVoice Realtime:

تحويل النص إلى كلام في الوقت الفعلي مع ~ 300 مللي ثانية من أول إخراج مسموع (يعتمد على الجهاز)
إدخال نص متدفق للتعامل مع تدفقات البيانات الحية المستمرة
إنشاء كلام قوي طويل الشكل (يصل إلى ~ 10 دقائق من طول الإنشاء)
تصميم خفيف الوزن: ما يقرب من 1 مليار معلمة إجمالية عبر المكونات
إخراج باللغة الإنجليزية بشكل أساسي، متحدث واحد
إصدار مفتوح المصدر بموجب ترخيص MIT (راجع المستودع للحصول على التفاصيل)
إرشادات وميزات السلامة أولاً، بما في ذلك إخلاء المسؤولية المسموع والعلامة المائية

يقع النموذج عند تقاطع السرعة والكفاءة والجودة العملية. على عكس العديد من أنظمة تحويل النص إلى كلام عالية الدقة التي تعمل على تحسين النطق وهويات المتحدثين المتعددين فقط، يركز VibeVoice Realtime على جعل الوكلاء والتجارب التفاعلية تبدو فورية دون التضحية بالوضوح أو التماسك.

الهندسة المعمارية وراء سرعة VibeVoice Realtime#

لتحقيق ظهور الكلام في أقل من ثانية، يستخدم VibeVoice Realtime تصميمًا متداخلاً ومقسمًا إلى نوافذ يتداخل مع ترميز النص وفك تشفير الصوت. من الناحية العملية، هذا يعني أن أجزاء من النظام تقوم بإعداد الإطارات التالية من الصوت بينما لا تزال أجزاء أخرى تعالج أحدث رموز النص - لذلك يمكن أن يبدأ الكلام بمجرد وصول نص ذي معنى تقريبًا.

المكونات الأساسية لـ VibeVoice Realtime:

العمود الفقري LLM: Qwen2.5-0.5B
رمزية صوتية: σ-VAE متغير يعمل بمعدل إطار منخفض يبلغ 7.5 هرتز
رأس الانتشار: يعمل بكفاءة على تحسين الرموز الصوتية إلى كلام عالي الجودة
طول السياق: 8 آلاف رمز
طول الإنشاء: ~ 10 دقائق
تكوين حجم النموذج: ~ 0.5B (LLM) + ~ 340M (وحدة فك ترميز الصوت) + ~ 40M (رأس الانتشار)

لماذا هو مهم:

نوافذ متداخلة: دع النموذج يبدأ "بالتحدث" قبل رؤية النص الكامل.
رمزية معدل إطار منخفض: يقلل من عدد الرموز الصوتية المطلوبة في الثانية، مما يحسن كفاءة التدفق.
رأس الانتشار: يضيف جودة إلى الكلام الذي تم إنشاؤه دون عقوبة الكمون الثقيلة.
نواة LLM صغيرة: تحافظ Qwen2.5-0.5B على انخفاض النفقات العامة للاستدلال مع الحفاظ على السياق لسرد طويل الشكل.

يسمح هذا التصميم لـ VibeVoice Realtime بتشغيل الوكلاء التفاعليين والتطبيقات المعززة بالصوت وأدوات الإنشاء حيث يهم كل مللي ثانية.

الأداء: جودة يمكنك الوثوق بها في الوقت الفعلي#

يوازن VibeVoice Realtime بين الكمون والوضوح. في المعايير القياسية، فإنه يحقق معدلات خطأ في الكلمات (WER) تنافسية مع الحفاظ على تشابه معقول للمتحدث لنظام صوت واحد:

اختبار LibriSpeech-clean: WER 2.00٪، تشابه المتحدث 0.695
اختبار SEED-en: WER 2.05٪، تشابه المتحدث 0.633

تشير هذه النتائج إلى أن VibeVoice Realtime ينتج كلامًا مفهومًا ومستقرًا ومناسبًا للسرد والصياغة والتوجيه الصوتي والاستجابات الحية - دون الحاجة إلى أجهزة ضخمة.

نظرة عامة على عائلة VibeVoice والمفاضلات#

VibeVoice Realtime هو جزء من مجموعة أوسع من النماذج المعدلة لتلبية الاحتياجات المختلفة. في حين أن VibeVoice Realtime يؤكد على الكمون المنخفض والاستجابة المتدفقة، فإن المتغيرات الأكبر (على سبيل المثال، 1.5B، Large) تستهدف السياق الممتد أو نوافذ الإنشاء الأطول أو تحسينات الجودة. بالنسبة للعديد من مهام سير عمل المبدعين، يوفر VibeVoice Realtime أفضل توازن بين السرعة وبصمة النشر، خاصة إذا كنت تقوم ببناء واجهات سريعة الاستجابة أو عروض توضيحية أو تجارب وكيل.

إذا كانت حالة الاستخدام الخاصة بك تتطلب تنوعًا متعدد المتحدثين أو موسيقى أو مناظر صوتية غير كلامية، فإن VibeVoice Realtime غير مصمم لذلك. إنه يركز على صوت ناطق باللغة الإنجليزية واحد ولا يقوم بتركيب صوت محيط أو موسيقى. هذا الوضوح في النطاق هو جزء من سبب تفوقه في وظيفته الأساسية.

أين يتناسب VibeVoice Realtime في سير عمل المبدع#

فيما يلي طرق عملية يمكن للتخصصات الإبداعية المختلفة الاستفادة من VibeVoice Realtime:

منشئو الفيديو والمحررون
- التعليقات الصوتية المؤقتة الفورية: قم بإسقاط نص واستمع إلى التوقيت في ثوانٍ.
- السرد المباشر لتراكبات البث المباشر: اقرأ تعليقات الجمهور أو التسميات التوضيحية عند وصولها.
- تكرار سريع في السرعة: اضبط التوقفات والتأكيد وعلامات النغمة أثناء التنقل.
المصممون والنماذج الأولية
- نماذج أولية صوتية أولاً: قم بتشغيل ملاحظات صوتية في الوقت الفعلي في النماذج التفاعلية.
- اختبار تجربة المستخدم مع مطالبات منطوقة: تحقق من صحة التدفقات باستخدام سرد واجهة المستخدم بدون استخدام اليدين.
- سباقات التصميم: أدخل الصوت في النماذج الأولية القابلة للنقر دون أوقات عرض طويلة.
الكتاب واستراتيجيو المحتوى
- سماع مسودتك: استخدم VibeVoice Realtime لالتقاط العبارات الخرقاء عن طريق الاستماع.
- قراءات A / B السريعة: اختبر المقدمات والخطافات البديلة داخل أداة الكتابة الخاصة بك.
- مدونات صوتية: قم بإنشاء سرد "لأول مرة" لمشاركته مع المتعاونين على الفور.
الممثلون الصوتيون ومنشئو الصوت
- مسارات الخدش: قم بإنشاء قراءات إرشادية لهيكلة الجلسات والتوقيت.
- إعداد القراءة الباردة: استمع إلى متغيرات النص قبل الدخول إلى المقصورة.
- سرعة الشخصية: على الرغم من الصوت الواحد، استخدم علامات الترقيم والصياغة لاختبار التسليم.
مطورو الألعاب ورواة القصص التفاعلية
- سرد NPC التفاعلي: قم بتغذية النص الذي تم إنشاؤه إلى VibeVoice Realtime للحصول على حوار مباشر.
- أصوات النظام: امنح مساعدك داخل اللعبة استجابات فورية وطبيعية.
- السرد الفوري لاختبارات اللعب: استمع إلى أحداث النص الإجرائية في الوقت الفعلي.
المدونون الصوتيون والبث المباشر
- ملخصات مباشرة: اقرأ بطاقات التمييز التي تم إنشاؤها أو نسخة الراعي دون تأخير.
- قراءة خلفية النسخ في الوقت الفعلي: قم بتحويل ملخصات الدردشة مرة أخرى إلى كلام طبيعي.
- سقالة الإنتاج: قم ببناء مخططات صوتية ثم استبدلها بقراءات نهائية لاحقًا.

القاسم المشترك: يقلل VibeVoice Realtime من الحلقة بين الفكرة والتعليقات السمعية، مما يبقيك في تدفقك الإبداعي.

عملي: البدء في استخدام VibeVoice Realtime#

في حين أن هذه المقالة تركز على الميزات وحالات الاستخدام، فإن VibeVoice Realtime جاهز للاستخدام العملي. ستجد كل ما تحتاجه في مستودع Microsoft VibeVoice وبطاقة النموذج.

بطاقة النموذج: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
صفحة المشروع: https://microsoft.github.io/VibeVoice
الرمز: https://github.com/microsoft/VibeVoice
تطبيق تجريبي (Space): https://huggingface.co/spaces/anycoderapps/VibeVoice-Realtime-0.5B
تقرير فني: https://arxiv.org/abs/2508.19205

مخطط الإعداد الأساسي:

راجع ملف README في مستودع GitHub لمعرفة متطلبات النظام وخطوات التثبيت والتبعيات الصوتية.
قم بتشغيل العرض التوضيحي أو مساحة Hugging Face لتأكيد أن بيئتك تنتج صوتًا بزمن انتقال منخفض.
قم بتغذية إدخال النص المتدفق في النموذج. للحصول على أفضل النتائج، أرسل النص في جمل طبيعية واستخدم علامات الترقيم لتوجيه السرعة.
راقب استخدام وحدة المعالجة المركزية / وحدة معالجة الرسومات وأحجام المخزن المؤقت للصوت. سيؤثر ضبط الأجهزة وتكوين المخزن المؤقت على ما إذا كنت ستصل إلى هدف ظهور الكلام ~ 300 مللي ثانية.

نصائح للمبدعين الذين يستخدمون VibeVoice Realtime:

لصياغة النصوص، قم بتدفق الفقرات جملة تلو الأخرى لسماع الصياغة الفورية.
لدمج الوكيل، ابدأ التحدث من الرموز الأولى لـ LLM للحفاظ على تفاعلات سريعة.
لمهام سير عمل التحرير، قم بتوجيه إخراج VibeVoice Realtime إلى DAW الخاص بك كمسار خدش؛ استبدل لاحقًا بقراءة نهائية إذا لزم الأمر.

كيف يتعامل VibeVoice Realtime مع الإدخال المتدفق#

غالبًا ما ينتظر TTS التقليدي جملًا كاملة أو أجزاء نصية كبيرة قبل إنشاء الصوت، مما يؤدي إلى تأخير. يدعم VibeVoice Realtime النص الذي يصل باستمرار. عندما ينتج تطبيقك أو أداتك رموزًا جديدة، يمكن للنموذج فك تشفير وبدء تشغيل ما شاهده بالفعل.

أفضل الممارسات للتدفق إلى VibeVoice Realtime:

التدفق في أجزاء دلالية قصيرة: الوحدات على مستوى الجملة أو العبارة مثالية.
استخدم علامات الترقيم: تساعد التوقفات القصيرة والفواصل النموذج على السرعة بشكل طبيعي أكثر.
تجنب النصوص الغنية بالشفرات أو الصيغ في الوقت الفعلي: هذا قيد معروف.
حافظ على السياق أقل من 8 آلاف رمز: يمكن لـ VibeVoice Realtime التعامل مع سياق طويل، لكن النوافذ المحددة تحافظ على الاستجابة.

جودة الصوت والطبيعية: الحصول على أقصى استفادة من VibeVoice Realtime#

نظرًا لأن VibeVoice Realtime يؤكد على السرعة، فإن نمط النص الخاص بك يؤثر على النتيجة. استخدم هذه التقنيات لزيادة الوضوح:

اكتب للأذن: جمل بسيطة، موضوع-فعل-مفعول به واضح، وعلامات ترقيم محادثة.
التحكم في السرعة باستخدام علامات الترقيم: تعمل الفواصل والشرطات الطويلة والنقاط كعلامات تنفس طبيعية.
حدد النية باستخدام الظروف باعتدال: على الرغم من أنه لا يمكنك تغيير الأصوات، يمكنك اقتراح السرعة (على سبيل المثال، "ببطء"، "توقف مؤقت قصير"، "بحماس") واختبار ما يبدو طبيعيًا في سير عملك.
حافظ على سهولة نطق الاختصارات: قدم تلميحات صوتية إذا لزم الأمر أو قم بتوسيع الاختصارات عند الاستخدام الأول.

نظرًا لأن VibeVoice Realtime هو صوت إنجليزي واحد، فاعتبره "تمرير الوضوح" السريع. استخدمه لالتقاط المشاكل في الإيقاع والهيكل. للحصول على تناسق صوت العلامة التجارية أو الإنتاج متعدد اللغات، خطط لمرحلة خط أنابيب لاحقة باستخدام نموذج يطابق هوية صوتك النهائية، ثم قم بتوصيل VibeVoice Realtime في وقت سابق للصياغة والتكرار.

وكلاء الوقت الفعلي و VibeVoice Realtime#

إحدى حالات الاستخدام البارزة هي التطبيقات على غرار الوكيل. باستخدام VibeVoice Realtime، يمكن لـ LLM البدء في التحدث من رموزه الأولى بدلاً من انتظار جملة كاملة. هذا يجعل المساعدين يشعرون بالاستجابة والحيوية - وهو مثالي لأكشاك دعم العملاء وأدوات الإنتاجية الصوتية أولاً والرفقاء التعليميين.

استراتيجيات تكامل الوكيل الرئيسية:

التدفق على مستوى الرمز: قم بتوصيل دفق الرمز المميز لنموذج المحادثة الخاص بك مباشرة بإدخال VibeVoice Realtime.
التجميع مع الضغط الخلفي: قم بتنفيذ تحكم بسيط في التدفق حتى لا تطغى على المخازن المؤقتة أثناء المونولوجات الطويلة.
معالجة الاقتحام: اسمح للمستخدمين بالمقاطعة وإعادة توجيه الوكيل المتحدث عن طريق إيقاف إخراج الصوت وبدء تمرير جديد عند وصول أولويات جديدة.
ميزانية الكمون: قم بملف تعريف لكل مرحلة - إنشاء الرمز المميز، وبدء TTS، وتشغيل الصوت - حتى يفي وكيلك بأهداف التفاعل في أقل من ثانية.

نظرًا لأن VibeVoice Realtime خفيف الوزن، يمكنك نشره على وحدات معالجة الرسومات المتواضعة أو وحدات المعالجة المركزية القوية، ثم التوسع أفقيًا. إنه مسار يسهل الوصول إليه لتمكين المنتجات بالصوت دون تخصيص بنية تحتية ضخمة.

الاستخدام المسؤول والأخلاقي مع VibeVoice Realtime#

إن TTS في الوقت الفعلي قوي - ومع القوة تأتي المسؤولية. يؤكد منشئو VibeVoice Realtime على النشر الآمن والأخلاقي. ضع هذه الحواجز الواقية في الاعتبار:

لا تنتحل شخصية الأصوات أو الأفراد دون موافقة واضحة.
تجنب المعلومات المضللة أو الاستخدامات الخادعة، بما في ذلك "التزييف العميق" في الوقت الفعلي.
احتفظ بميزات السلامة: يتضمن VibeVoice Realtime إخلاء مسؤولية مسموع وعلامة مائية غير محسوسة؛ لا تقم بتجريد أو تعطيل الضمانات.
افصح عن الكلام الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بوضوح للجمهور والمتعاونين.
تم تدريب النموذج بشكل أساسي على اللغة الإنجليزية ومتحدث واحد؛ تجنب تقديمه على أنه متعدد المتحدثين أو متعدد اللغات دون وضع العلامات والاختبار المناسبين.

بالإضافة إلى ذلك، على الرغم من إصدار المشروع بموجب ترخيص MIT، يوصي المؤلفون بإجراء تقييم دقيق قبل الاستخدام التجاري. كأفضل ممارسة، قم بإجراء اختباراتك الخاصة للموثوقية والحالات الشاذة والامتثال القانوني في نطاق سلطتك القضائية.

القيود التي يجب مراعاتها قبل الشحن#

لاتخاذ قرارات مستنيرة، كن على دراية بما لا يفعله VibeVoice Realtime:

متحدث واحد فقط: لا يوجد اختيار أو استنساخ متعدد الأصوات.
اللغة الإنجليزية بشكل أساسي: دعم محدود يتجاوز اللغة الإنجليزية.
لا يوجد صوت غير كلامي: لن يقوم بإنشاء موسيقى أو أجواء أو تصميم صوتي معقد.
محتوى تقني: قد يتم التعامل مع المقاطع الغنية بالشفرات أو الصيغ بشكل غير كامل.
الكمون يعتمد على الأجهزة: قد يتطلب الوصول إلى ~ 300 مللي ثانية ضبطًا وأجهزة قادرة.
قيود السلامة: احترم سياسات الاستخدام المقصود وتجنب حالات الاستخدام الخارجة عن النطاق.

هذه الحدود هي جزء مما يجعل VibeVoice Realtime يعتمد عليه في وظيفته الأساسية: كلام سريع ومفهوم للتجارب التفاعلية ومهام سير العمل الإبداعية التكرارية.

مرجع سريع للمبدع: المواصفات التي تهم#

فيما يلي لقطة موجزة لمواصفات VibeVoice Realtime يمكنك تثبيتها في ملخص مشروعك:

أول كلام مسموع: ~ 300 مللي ثانية (يعتمد على الجهاز)
الإدخال: نص متدفق
الإخراج: كلام باللغة الإنجليزية (متحدث واحد)
قاعدة LLM: Qwen2.5-0.5B
رمزية صوتية: σ-VAE متغير، 7.5 هرتز
رأس الانتشار: تحسين خفيف الوزن للطبيعية
طول السياق: 8 آلاف رمز
طول الإنشاء: ~ 10 دقائق
المعلمات: ~ 0.5B (LLM) + ~ 340M (وحدة فك ترميز الصوت) + ~ 40M (رأس الانتشار)

وصفات عملية لاستخدام VibeVoice Realtime اليوم#

سرد الترجمة المصاحبة المباشرة للبث المباشر
- التدفق: نسخ الدردشة أو التسميات التوضيحية -> تلخيص -> إرسال العبارات إلى VibeVoice Realtime للسرد الفوري.
- الفائدة: تجارب شاملة بدون استخدام اليدين ولحظات بث ديناميكية.
صياغة تحريرية لمقاطع فيديو YouTube
- التدفق: صياغة نص -> تدفق إلى VibeVoice Realtime بالجمل -> الاستماع إلى السرعة -> الضبط -> تصدير خدش VO لوضع الجدول الزمني.
- الفائدة: يقلل من ساعات التكرار؛ تحدث قرارات التوقيت الخاصة بك أثناء الاستماع.
مولد ملخصات البودكاست
- التدفق: تلخيص ملاحظات العرض -> إنشاء "فتح بارد" -> استخدم VibeVoice Realtime لسماع إصدارات متعددة مباشرة -> اختر الأفضل لتسجيله "بشكل حقيقي".
- الفائدة: قرارات إبداعية أسرع مع إجهاد أقل على الميكروفون.
مراجعات التصميم مع مطالبات صوتية
- التدفق: إعداد مطالبات قصيرة -> تضمين في النماذج الأولية -> تشغيل سرد VibeVoice Realtime عند تنشيط النقاط الساخنة.
- الفائدة: يختبر أصحاب المصلحة التدفقات مع سياق الصوت، مما يحسن جودة الملاحظات.
رفيق تعليمي وكيل
- التدفق: يشرح نموذج المحادثة الخطوات -> تتدفق الرموز إلى VibeVoice Realtime -> يسمع المستخدم التوجيه على الفور.
- الفائدة: توجيه طبيعي وسريع الاستجابة في التعليم والإعداد.

مقارنة VibeVoice Realtime بخيارات TTS النموذجية#

غالبًا ما تتطلب أنظمة TTS التقليدية:

إدخال جملة كاملة قبل التشغيل
نماذج أثقل أو كمون سحابي فقط
تفاعل محدود أثناء الإنشاء

يعكس VibeVoice Realtime هذا النص:

يبدأ الصوت في ~ 300 مللي ثانية، ثم يستمر مع تدفق النص
مكونات خفيفة الوزن معدلة للنشر بزمن انتقال منخفض
مصمم للأدوات الوكيلة والتفاعلية من الألف إلى الياء

في حين أن محركات TTS متعددة المتحدثين المتطورة يمكن أن تقدم مجموعة أغنى من الأصوات، فإنها غالبًا ما تتاجر بالاستجابة مقابل الدقة. يحقق VibeVoice Realtime توازنًا عمليًا: فهو يوفر كلامًا واضحًا ومتماسكًا بسرعات تفاعلية، مما يجعله خيارًا مناسبًا للنماذج الأولية والتجارب الحية ومهام سير عمل المبدعين حيث يكون الوقت المستغرق في الصوت أمرًا بالغ الأهمية.

النظرة المستقبلية: ما الذي تشير إليه VibeVoice Realtime لأدوات الإبداع#

يشير VibeVoice Realtime إلى مستقبل يصبح فيه الصوت طريقة افتراضية في أدوات الإبداع:

تكتسب DAWs و NLEs "تحدث أثناء الكتابة" لفحوصات التوقيت الفورية.
تحصل أدوات النماذج الأولية على استجابات صوتية أصلية، مما يفتح اختبار تجربة المستخدم الصوتي أولاً.
تقوم محركات الألعاب بتوجيه النص السردي مباشرة إلى الكلام دون تأخيرات في التدريج.
مهام سير العمل الوكيلة تبدو سلسة - تتحدث LLMs أثناء التفكير.

مع نضوج النظام البيئي، توقع عمليات تكامل أكثر إحكامًا، وإيقاعًا أكثر قابلية للتحكم، وتنوعًا صوتيًا اختياريًا. في الوقت الحالي، يعد VibeVoice Realtime خط أساس قوي وعملي يوفر بالفعل قيمة في الوقت الفعلي للمبدعين.

الخلاصة: ابتكر بسرعة التفكير مع VibeVoice Realtime#

بالنسبة لمنشئي المحتوى الذين يقيسون الإنتاجية بالتكرارات في الساعة، فإن VibeVoice Realtime هو مضاعف قوة. فهو يمزج بين الكمون المنخفض للغاية والإدخال المتدفق والاستقرار طويل الشكل في حزمة واحدة مفتوحة المصدر يمكنك تجربتها اليوم. استخدم VibeVoice Realtime لـ temp VO والسرد المباشر والنماذج الأولية وكلام الوكيل؛ ثم، عندما يتم قفل مفهومك، قم بتبديل صوتك النهائي إذا لزم الأمر. ستقضي وقتًا أقل في الانتظار ووقتًا أطول في الإبداع.

استكشف وجرب:

بطاقة النموذج والعروض التوضيحية: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
صفحة المشروع: https://microsoft.github.io/VibeVoice
الرمز والإعداد: https://github.com/microsoft/VibeVoice
عرض توضيحي للمساحة: https://huggingface.co/spaces/anycoderapps/VibeVoice-Realtime-0.5B

يساعد VibeVoice Realtime أفكارك على التحدث عن نفسها - على الفور تقريبًا.