Hunyuan OCR: محرك OCR الشامل ومتعدد اللغات الذي يمكن للمبدعين نشره بالفعل

Hunyuan OCR: محرك OCR الشامل ومتعدد اللغات الذي يمكن للمبدعين نشره بالفعل

11 min read

لماذا يجب على المبدعين الاهتمام بـ Hunyuan OCR#

إذا كانت سير عملك الإبداعي يلامس النصوص في الصور أو ملفات PDF أو أصول التصميم أو إطارات الفيديو، فإن Hunyuan OCR هو التحديث النادر الذي يوفر الوقت في جميع المجالات. تم بناء Hunyuan OCR بواسطة Tencent Hunyuan كنموذج رؤية ولغة شامل (end-to-end) بمعامل 1 مليار، وهو يدمج مكدس OCR بأكمله - الاكتشاف والتعرف والتحليل والاستخراج وحتى الترجمة - في نموذج واحد. هذا يعني عددًا أقل من الأجزاء المتحركة، وعددًا أقل من البرامج النصية اللاصقة الهشة، وعددًا أقل من الأخطاء اللاحقة التي تعرقل خط الإنتاج الخاص بك.

بالنسبة لمنشئي المحتوى - محرري الفيديو الذين يسحبون الترجمة، والمصممين الذين يقومون بتوطين التخطيطات، والكتاب الذين يبحثون في المستندات، أو الممثلين الصوتيين الذين يعالجون النصوص دفعة واحدة - يجمع Hunyuan OCR بين الدقة القوية والسرعة العملية وسهولة النشر. وهو يدعم أكثر من 100 لغة، ويعمل بكفاءة مع vLLM أو Transformers، ويقرن المطالبات النظيفة والموجهة نحو المهام بمسارات استدلال صديقة للإنتاج.

في هذا الدليل، ستتعرف على ما يميز Hunyuan OCR، وما يمكن أن يفعله لدورك الإبداعي المحدد، وكيفية تشغيله في دقائق.

ما الذي يجعل Hunyuan OCR مختلفًا#

تعتمد خطوط أنابيب OCR التقليدية على سلسلة من النماذج والإرشادات: اكتشاف مناطق النص، والاقتصاص، والتعرف على الأحرف، والمعالجة اللاحقة، ثم تحليل البنية. يمكن أن تؤدي كل قفزة إلى إدخال أخطاء تتضاعف. يبسط نهج Hunyuan OCR الشامل هذا المكدس بحيث يمكنك الانتقال من الصورة إلى الإخراج المنظم في تمريرة واحدة إلى الأمام.

الفروق الرئيسية:

  • تصميم شامل: يتجنب Hunyuan OCR انتشار الأخطاء الشائعة في مكدسات OCR المتتالية من خلال الحفاظ على الاكتشاف والتعرف والفهم اللاحق تحت سقف واحد.
  • قوة خفيفة الوزن: يحقق Hunyuan OCR أحدث النتائج مع 1 مليار معلمة فقط، مما يجعله عمليًا للشحن والتوسع.
  • الوصول متعدد اللغات: يدعم Hunyuan OCR أكثر من 100 لغة، مما يفتح إنتاج المحتوى العالمي والترجمة.
  • تغطية واسعة للمهام: يتعامل Hunyuan OCR مع تحديد مواقع النص، وتحليل المستندات، واستخراج المعلومات، واستخراج ترجمة الفيديو، وترجمة الصور، والإجابة على أسئلة المستندات.
  • نشر التوصيل والتشغيل: يمكن تشغيل Hunyuan OCR مع vLLM لخدمة عالية الإنتاجية أو مع Transformers لسير عمل البرمجة النصية المرنة.

وفقًا للمعايير المنشورة في المستودع الرسمي والتقرير الفني، يقدم Hunyuan OCR أداءً SOTA في تحليل المستندات (مثل OmniDocBench) ونتائج قوية في تحديد مواقع النص واستخراج المعلومات في التقييمات الداخلية، بينما يتنافس بشكل وثيق في ترجمة الصور - كل ذلك بحجم نموذج مضغوط.

ما الذي يمكن أن يفعله Hunyuan OCR للمبدعين#

تم تصميم Hunyuan OCR لحل مشاكل المبدعين العملية بأقل قدر من الاحتكاك:

  • استخراج ترجمة الفيديو
    • سحب الترجمة من الإطارات أو المقاطع.
    • تحويل التسميات التوضيحية المضمنة إلى نص متوافق مع الوقت للتحرير.
    • بناء مسودات ترجمة متعددة اللغات للترجمة.
  • تحليل المستندات وفهم التخطيط
    • تحويل ملفات PDF والنماذج والكتيبات إلى حقول منظمة.
    • استخراج الجداول والرؤوس والقوائم وترتيب القراءة.
    • إنشاء مخرجات جاهزة لـ JSON لدمج CMS.
  • استخراج المعلومات للإيصالات والفواتير وبطاقات الهوية
    • استخراج أسماء البائعين والمجاميع والحقول التاريخية والعناوين وبطاقات الهوية.
    • فرض مخطط ثابت للمعالجة الدفعية.
  • ترجمة الصور للأصول الإبداعية
    • ترجمة النص في الملصقات أو الرسومات الاجتماعية أو شاشات واجهة المستخدم أو الرسوم الهزلية.
    • الاحتفاظ بدلالات التخطيط لتوجيه إعادة الكتابة.
  • أسئلة وأجوبة المستندات لسير العمل كثيفة البحث
    • اطرح أسئلة على المستندات الطويلة وتلقي إجابات مستهدفة مع الأدلة.
    • التحقق المتبادل من الحقول المستخرجة من الملفات المعقدة.

لكل من هذه المهام، يركز Hunyuan OCR على "المطالبات الموجهة نحو التطبيق"، بحيث يمكنك توجيه المخرجات نحو تنسيقات منظمة تتناسب مع أدواتك الحالية.

الأداء في لمحة#

في حين أن نتائجك ستختلف حسب المجال، فإن المؤلفين يبلغون عن:

  • تحديد مواقع النص: يتفوق Hunyuan OCR على العديد من خطوط الأساس الشائعة لـ OCR و VLM في معيار داخلي.
  • تحليل المستندات: يصل Hunyuan OCR إلى SOTA على OmniDocBench ومجموعة داخلية متعددة اللغات، متجاوزًا VLMs العامة الكبيرة و OCR-VLMs المتخصصة.
  • استخراج المعلومات: يظهر Hunyuan OCR مكاسب قوية في البطاقات والإيصالات ومهام استخراج الترجمة في التقييمات الداخلية.
  • ترجمة الصور: يقدم Hunyuan OCR دقة مماثلة للنماذج الأكبر حجمًا مع البقاء قابلاً للنشر.

هذه النتائج، جنبًا إلى جنب مع بصمة 1 مليار معلمة، تجعل Hunyuan OCR ترقية مقنعة إذا كنت قد كافحت لنشر مكدسات OCR / VLM الأكبر حجمًا.

المراجع:

داخل النموذج: كيف يعمل Hunyuan OCR#

تحت الغطاء، يربط Hunyuan OCR مشفر Vision Transformer (ViT) أصليًا بـ LLM خفيف الوزن عبر محول MLP. يتيح ذلك لجانب الرؤية التقاط أنماط نصية كثيفة - الخطوط والنصوص والتخطيطات - بينما يفكر جانب اللغة في البنية والمخططات والتعليمات. والنتيجة هي سلوك OCR بالإضافة إلى الفهم الموحد المدفوع بالمطالبات.

يصف التقرير الفني أيضًا استراتيجيات التعلم المعزز التي تزيد من تحسين اتباع التعليمات الخاصة بـ OCR وجودة الإخراج. من الناحية العملية، هذا يعني أنه يمكن توجيه Hunyuan OCR بمطالبات محددة للغاية (على سبيل المثال، "استخرج فقط المجاميع بالدولار الأمريكي وأرجع تواريخ ISO")، وهو أمر حيوي للمبدعين الذين يحتاجون إلى مخرجات نظيفة وجاهزة للاستخدام.

متطلبات النظام والتثبيت#

ينشر Hunyuan OCR التعليمات البرمجية والأوزان والبدايات السريعة لكل من vLLM و Transformers. بالنسبة لإنتاجية الإنتاج، يوصى باستخدام vLLM؛ بالنسبة للبرامج النصية المخصصة أو النماذج الأولية، يعمل Transformers بشكل جيد.

الحد الأدنى للبيئة (لكل إرشادات المستودع):

  • نظام التشغيل: Linux
  • Python: 3.12+
  • CUDA: 12.9
  • PyTorch: 2.7.1
  • وحدة معالجة الرسومات: وحدة معالجة رسومات NVIDIA مع دعم CUDA (يوصى بحوالي 20 جيجابايت من الذاكرة لخدمة vLLM)
  • القرص: ~6 جيجابايت للأوزان

مسارات التثبيت:

  • مع vLLM (الخدمة): قم بتثبيت vllm، وقم بتنزيل النموذج من Hugging Face، وابدأ خادم API.
  • مع Transformers (البرمجة النصية): قم بتثبيت transformers وتسريع، ثم قم بتحميل نقطة التفتيش وتشغيل الاستدلال.

يكشف Hunyuan OCR عن نصوص واضحة لكلا المسارين في README الخاص بالمستودع.

بداية سريعة: Hunyuan OCR مع vLLM#

  1. قم بتثبيت vLLM والتبعيات:
pip install vllm
  1. قم بتشغيل خادم vLLM مع Hunyuan OCR:
python -m vllm.entrypoints.openai.api_server \
  --model tencent/HunyuanOCR \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9 \
  --port 8000
  1. اتصل بالخادم عبر واجهة برمجة تطبيقات متوافقة مع OpenAI:
import base64, requests

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("invoice.jpg")
prompt = """أنت مساعد OCR واستخراج المعلومات.
المهمة: استخراج vendor_name، date(YYYY-MM-DD)، total_amount(USD)، و line_items من الصورة.
إرجاع JSON صالح مع هذه المفاتيح فقط وبدون نص إضافي."""

payload = {
  "model": "tencent/HunyuanOCR",
  "messages": [
    {"role": "user", "content": [
      {"type": "text", "text": prompt},
      {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}}
    ]}
  ],
  "temperature": 0.0
}
r = requests.post("http://localhost:8000/v1/chat/completions", json=payload, timeout=120)
print(r.json()["choices"][0]["message"]["content"])

في هذا الإعداد، يستجيب Hunyuan OCR بـ JSON منظم يمكنك إدخاله مباشرة في خط الإنتاج الخاص بك.

بداية سريعة: Hunyuan OCR مع Transformers#

  1. قم بتثبيت التبعيات:
pip install "transformers>=4.45.0" accelerate torch torchvision
  1. قم بتشغيل استدلال بسيط:
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import json

model_id = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_id, trust_remote_code=True).eval().cuda()

image = Image.open("receipt.png").convert("RGB")
prompt = (
  "Detect all text regions and recognize their content. "
  "Return a JSON array of {bbox:[x1,y1,x2,y2], text:'...'}."
)

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=1024)
result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(result)

يتيح لك Transformers التكرار بسرعة على المطالبات، والتكامل مع دفاتر الملاحظات، وتكوين Hunyuan OCR مع أدوات Python الأخرى.

تصميم المطالبات: اجعل Hunyuan OCR يعمل من أجلك#

نظرًا لأن Hunyuan OCR شامل ويتبع التعليمات، فإن مطالبتك هي واجهتك. المطالبات الواضحة والمقيدة تعطي مخرجات نظيفة.

نصائح عامة:

  • اذكر المهمة والمخطط وتنسيق الإخراج بشكل صريح.
  • بالنسبة للبيانات المنظمة، اطلب JSON صارمًا وقم بإدراج المفاتيح بالترتيب.
  • بالنسبة للمدخلات متعددة اللغات، حدد اللغات المصدر والهدف.
  • بالنسبة لمهام التخطيط، اطلب مربعات الإحاطة أو ترتيب القراءة حسب الحاجة.
  • حافظ على درجة حرارة منخفضة (0-0.2) للحصول على مخرجات حتمية.

قوالب المطالبات التي يمكنك تكييفها:

  • تحديد مواقع النص
    • "اكتشف جميع مناطق النص وتعرف على محتواها. إرجاع مصفوفة JSON من الكائنات {bbox:[x1,y1,x2,y2], text:'...'} بترتيب القراءة."
  • تحليل المستندات
    • "قم بتحليل هذا المستند إلى عنوان وعنوان فرعي وأقسام وجداول وحواشي سفلية. لكل جدول، قم بتضمين مصفوفة ثنائية الأبعاد من الخلايا. إرجاع JSON مع الحقول: title, subtitle, sections[], tables[], footnotes[]."
  • استخراج المعلومات للإيصالات
    • "استخرج vendor_name، date (YYYY-MM-DD)، currency (رمز ISO)، subtotal، tax، total، و line_items[{name, qty, unit_price, amount}]. إرجاع JSON صالح مع هذه المفاتيح الدقيقة. إذا كانت القيمة مفقودة، فقم بتعيينها إلى null."
  • استخراج الترجمة من إطارات الفيديو
    • "حدد نص الترجمة على الصورة. إرجاع مصفوفة من {bbox, text} لكل سطر ترجمة. إذا كان النص يمتد لعدة أسطر، فاحتفظ بكل سطر منفصلاً."
  • ترجمة الصور
    • "ترجمة جميع النصوص المرئية من [SOURCE_LANGUAGE] إلى [TARGET_LANGUAGE]. حافظ على ترتيب التخطيط وإرجاع مصفوفة من {bbox, source, target}. لا تضف تفسيرات."

المطالبة هي المكان الذي يتألق فيه Hunyuan OCR: يمكنك الانتقال من وحدات البكسل غير المنظمة إلى JSON منظم أو مخرجات ثنائية اللغة دون رحلات ذهابًا وإيابًا بين وحدات OCR و NLP منفصلة.

وصفات سير العمل للمبدعين#

فيما يلي طرق عملية يمكن للمبدعين من خلالها دمج Hunyuan OCR في العمل اليومي.

  • منشئو الفيديو

    • استعادة الترجمة الدفعية: قم بأخذ عينة من إطار واحد في الثانية، وقم بتشغيل Hunyuan OCR مع مطالبة تحديد مواقع الترجمة، وقم بتجميع SRT تقريبي مع الطوابع الزمنية. يصبح التنظيف أسرع بشكل كبير.
    • التسميات التوضيحية باللغات الأجنبية: قم بتشغيل Hunyuan OCR لاستخراج النص، ثم قم بترجمته عبر مطالبة ترجمة الصور لإنشاء مسودات ترجمة ثنائية اللغة.
  • المصممون وفرق الترجمة

    • ترجمة الملصقات وواجهة المستخدم: لكل أصل، استخدم Hunyuan OCR لاستخراج النص مع مربعات الإحاطة، والترجمة، وتسليم {bbox, target} إلى المصممين لإعادة الكتابة في Figma أو Photoshop.
    • تخطيط ضمان الجودة: اطلب من Hunyuan OCR ترتيب القراءة وعناوين الأقسام للتحقق من أن التخطيطات سريعة الاستجابة لا تزال تقرأ منطقيًا.
  • الكتاب والباحثون والمحررون

    • مسح المستندات إلى ملاحظات: استخدم Hunyuan OCR لتحليل ملفات PDF إلى أقسام واقتباسات للاستخدام التحريري الفوري.
    • استخراج الحقائق: اطلب من Hunyuan OCR استخراج الحقول الرئيسية (التواريخ والأرقام والكيانات) عبر المحفوظات الممسوحة ضوئيًا وإرجاع مجموعة بيانات موحدة.
  • الممثلون الصوتيون واستوديوهات الدبلجة

    • عزل الخط: إذا كانت النصوص مضمنة في لوحات القصة أو لوحات المانجا، فاجعل Hunyuan OCR يستخرج النص سطرًا سطرًا، مع الحفاظ على ترتيب اللوحة.
    • سياق النطق: استخدم Hunyuan OCR لالتقاط الأسماء والمصطلحات باللغة الأصلية جنبًا إلى جنب مع الترجمات لتقديم دقيق.

تستفيد كل من هذه من سلوك Hunyuan OCR الشامل، مما يقلل من احتمالات انقطاع خط الإنتاج ويقلل بشكل كبير من التعليمات البرمجية اللاصقة.

النشر: vLLM مقابل Transformers#

  • vLLM للخدمة

    • عندما تحتاج إلى خادم للتعامل مع العديد من المستخدمين أو الدفعات أو الإنتاجية العالية، فإن vLLM هي أسرع طريقة لاستضافة Hunyuan OCR.
    • نصائح:
      • ابدأ بوحدة معالجة رسومات 20 جيجابايت + لإنتاجية سلسة.
      • استخدم درجة حرارة منخفضة واضبط الحد الأقصى للرموز المميزة المناسبة لحجم الإخراج الخاص بك.
      • قم بتسخين الخادم ببضعة طلبات نموذجية لتثبيت زمن الوصول.
  • Transformers للبرمجة النصية

    • عندما تقوم بإنشاء نماذج أولية للمطالبات أو تشغيل دفعات غير متصلة بالإنترنت أو إنشاء أدوات صغيرة مخصصة، فإن Transformers يوفر المرونة.
    • نصائح:
      • قم بمعالجة الصور مسبقًا للحصول على DPI واتجاه متسقين.
      • قم بتقييد الرموز المميزة للإخراج للحفاظ على تشغيلات قابلة للتنبؤ.
      • قم بتخزين النموذج والمعالج مؤقتًا على القرص لبدء تشغيل أسرع.

أيا كان المسار الذي تختاره، يمكنك الاحتفاظ بنفس المطالبات وتبديل الواجهات الخلفية عندما تنتقل من النموذج الأولي إلى الإنتاج - وهو فوز آخر لـ Hunyuan OCR.

الاعتبارات العملية وأفضل الممارسات#

  • جودة الصورة مهمة
    • حتى مع التعرف القوي، يستفيد Hunyuan OCR من الصور الحادة. قم بإزالة الانحراف وتقليل الضوضاء وزيادة الدقة حيثما أمكن ذلك.
  • كن صريحًا مع المخططات
    • بالنسبة لمهام الاستخراج، قم بفرض أسماء الحقول وأنواعها. يستجيب Hunyuan OCR جيدًا للتعليمات الدقيقة وأمثلة JSON.
  • الدفعة بذكاء
    • في خدمة vLLM، قم بتجميع طلبات أو إطارات متعددة قدر الإمكان لزيادة الإنتاجية مع Hunyuan OCR.
  • مراقبة المخرجات
    • أضف أدوات التحقق من صحة تنسيقات التاريخ أو رموز العملات أو النطاقات الرقمية. إذا فشلت قيمة في التحقق من الصحة، فأعد مطالبة Hunyuan OCR بتعليمات تصحيحية.
  • احترام الخصوصية
    • يجب التعامل مع بطاقات الهوية الحساسة أو الإيصالات الطبية أو العقود بموجب سياسات بيانات مؤسستك. يمنحك الاستضافة الذاتية لـ Hunyuan OCR تحكمًا أكثر إحكامًا من واجهات برمجة تطبيقات الطرف الثالث.
  • تعرف على حدودك
    • قد تتطلب المستندات الطويلة جدًا متعددة الصفحات تقسيمًا. استخدم مطالبات صفحة بصفحة وقم بتجميع النتائج، أو اطلب من Hunyuan OCR تلخيص الأقسام تدريجيًا.

ملاحظات حول الهندسة المعمارية والتدريب (للمهتمين)#

هندسة معمارية بسيطة تعمل على تشغيل Hunyuan OCR:

  • العمود الفقري للرؤية: يتعامل ViT الأصلي مع ميزات النص الكثيفة وإشارات التخطيط.
  • رأس اللغة: يقوم LLM مضغوط باتباع التعليمات وإنشاء منظم.
  • محول MLP: يربط تضمينات الرؤية ورأس اللغة.
  • استراتيجيات RL: كما ورد، يساهم التعلم المعزز في مكاسب ملحوظة في التعليمات على غرار OCR، مما يحسن الالتزام بالتنسيقات والمخططات.

يشرح هذا المزيج سبب إمكانية توجيه Hunyuan OCR بدقة - طلب JSON صارم أو مخرجات متوافقة ثنائية اللغة يعمل بشكل موثوق مقارنة بمكدسات OCR التقليدية.

خطوة بخطوة: بناء خط أنابيب تحليل المستندات#

لرؤية Hunyuan OCR قيد التشغيل، إليك تدفق PDF بسيط إلى JSON منظم:

  1. تحويل الصفحات إلى صور (على سبيل المثال، 300 DPI PNGs).
  2. لكل صفحة، اطلب من Hunyuan OCR تحليل الأقسام والرؤوس والجداول والتذييلات.
  3. التحقق من الصحة: تأكد من أن كل جدول لديه نفس عدد الأعمدة لكل صف؛ إجبار التواريخ على ISO.
  4. الدمج: دمج النتائج على مستوى الصفحة؛ إعادة تدفق الأقسام بترتيب القراءة.
  5. التصدير: قم بتخزين JSON النهائي في CMS أو مستودع البيانات الخاص بك واحتفظ بتجزئة للملف المصدر.

يعني النموذج الفردي عددًا أقل من الصداع التكامل وأقل صيانة - أحد أكبر مزايا Hunyuan OCR للفرق الصغيرة والمتوسطة الحجم.

مكان التجربة والتنزيل ومعرفة المزيد#

  • عرض تجريبي مباشر: استكشف Hunyuan OCR في متصفحك على Hugging Face Spaces
  • أوزان النموذج: قم بتنزيل Hunyuan OCR من Hugging Face
  • التعليمات البرمجية المصدر والإعداد: مستودع كامل مع التعليمات والمطالبات وتفاصيل التقييم
    • GitHub (ابحث عن HunyuanOCR)
  • تقرير فني: الأساليب والاستئصال واستراتيجيات RL

الخلاصة: ترقية OCR عملية لفرق الإبداع الحديثة#

يجلب Hunyuan OCR OCR شاملاً وتغطية متعددة اللغات ودقة قوية في حزمة مضغوطة بمعامل 1 مليار يمكنك نشرها بالفعل. بدلاً من تجميع الاكتشاف والتعرف والتحليل والترجمة معًا، يمكنك مطالبة نموذج واحد بإرجاع ما يحتاجه سير عملك تمامًا - JSON نظيف أو ترجمات متوافقة أو ترجمات مصحوبة بطوابع زمنية.

بالنسبة لمنشئي المحتوى الذين يعيشون في المستندات والإطارات وملفات التصميم، يتيح Hunyuan OCR ما يلي:

  • وقت استجابة أسرع مع عدد أقل من الأدوات
  • مخرجات أنظف ومتوافقة مع المخطط
  • معالجة موثوقة متعددة اللغات
  • نشر مباشر عبر vLLM أو Transformers

إذا كنت تنتظر محرك OCR يتناسب مع الإنتاج الحقيقي مع الحفاظ على النفقات العامة للمطورين صغيرة، فإن Hunyuan OCR هو المكان المناسب للبدء. جرب العرض التوضيحي، وقم بتحميل النموذج، وشاهد مقدار الوقت الذي يمكنك استعادته هذا الأسبوع.

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles