Hunyuan OCR: Mesin OCR End-to-End dan Multibahasa yang Benar-Benar Dapat Diterapkan oleh Kreator Konten

Mengapa kreator konten harus peduli dengan Hunyuan OCR#

Jika alur kerja kreatif Anda menyentuh teks dalam gambar, PDF, aset desain, atau bingkai video, Hunyuan OCR adalah peningkatan langka yang menghemat waktu di semua lini. Dibangun oleh Tencent Hunyuan sebagai Model Visi-Bahasa end-to-end 1B-parameter, Hunyuan OCR menggabungkan seluruh tumpukan OCR—deteksi, pengenalan, penguraian, ekstraksi, bahkan terjemahan—ke dalam satu model. Itu berarti lebih sedikit bagian yang bergerak, lebih sedikit skrip perekat yang rapuh, dan lebih sedikit kesalahan hilir yang menggagalkan pipeline Anda.

Untuk kreator konten—editor video yang menarik subtitle, desainer yang melokalkan tata letak, penulis yang meneliti dokumen, atau pengisi suara yang memproses skrip secara batch—Hunyuan OCR menggabungkan akurasi yang kuat dengan kecepatan praktis dan kesederhanaan penerapan. Ia mendukung 100+ bahasa, berjalan efisien dengan vLLM atau Transformers, dan memasangkan prompt yang bersih dan berorientasi tugas dengan rute inferensi yang ramah produksi.

Dalam panduan ini, Anda akan mempelajari apa yang membedakan Hunyuan OCR, apa yang dapat dilakukannya untuk peran kreatif spesifik Anda, dan cara menjalankannya dalam hitungan menit.

Apa yang membuat Hunyuan OCR berbeda#

Pipeline OCR tradisional merangkai beberapa model dan heuristik secara berantai: mendeteksi wilayah teks, memotong, mengenali karakter, memproses pasca, dan kemudian mengurai struktur. Setiap lompatan dapat menimbulkan kesalahan yang bertambah. Pendekatan end-to-end Hunyuan OCR menyederhanakan tumpukan ini sehingga Anda dapat beralih dari gambar ke output terstruktur dalam satu lintasan maju.

Pembeda utama:

Desain end-to-end: Hunyuan OCR menghindari propagasi kesalahan yang umum dalam tumpukan OCR bertingkat dengan menjaga deteksi, pengenalan, dan pemahaman hilir di bawah satu atap.
Kekuatan ringan: Hunyuan OCR mencapai hasil terbaik dengan hanya 1B parameter, membuatnya praktis untuk dikirim dan diskalakan.
Jangkauan multibahasa: Hunyuan OCR mendukung 100+ bahasa, membuka produksi dan lokalisasi konten global.
Cakupan tugas yang luas: Hunyuan OCR menangani text spotting, penguraian dokumen, ekstraksi informasi, ekstraksi subtitle video, terjemahan gambar, dan tanya jawab dokumen.
Penerapan plug-and-play: Hunyuan OCR dapat berjalan dengan vLLM untuk penyajian throughput tinggi atau dengan Transformers untuk alur kerja scripting yang fleksibel.

Menurut tolok ukur yang diterbitkan di repositori resmi dan laporan teknis, Hunyuan OCR memberikan kinerja SOTA pada penguraian dokumen (mis., OmniDocBench) dan hasil yang kuat dalam text spotting dan ekstraksi informasi pada evaluasi internal, sambil bersaing ketat pada terjemahan gambar—semua dengan ukuran model yang ringkas.

Apa yang dapat dilakukan Hunyuan OCR untuk kreator konten#

Hunyuan OCR dirancang untuk memecahkan masalah praktis kreator konten dengan gesekan minimal:

Ekstraksi subtitle video
- Tarik subtitle dari bingkai atau klip.
- Konversi teks yang tertanam (burned-in) menjadi teks yang selaras waktu untuk pengeditan.
- Bangun draf subtitle multibahasa untuk terjemahan.
Penguraian dokumen dan pemahaman tata letak
- Konversi PDF, formulir, dan brosur menjadi bidang terstruktur.
- Ekstrak tabel, header, daftar, dan urutan membaca.
- Hasilkan output siap JSON untuk penyerapan CMS.
Ekstraksi informasi untuk kwitansi, faktur, dan ID
- Ekstrak nama vendor, total, bidang tanggal, alamat, dan ID.
- Terapkan skema tetap untuk pemrosesan batch.
Terjemahan gambar untuk aset kreatif
- Terjemahkan teks dalam poster, grafis sosial, layar UI, atau komik.
- Pertahankan semantik tata letak untuk memandu pengetikan ulang.
Tanya jawab dokumen untuk alur kerja yang membutuhkan banyak riset
- Ajukan pertanyaan tentang dokumen panjang dan terima jawaban yang ditargetkan dengan bukti.
- Periksa silang bidang yang diekstraksi dari pengajuan yang kompleks.

Untuk setiap tugas ini, Hunyuan OCR berpusat pada “prompt berorientasi aplikasi,” sehingga Anda dapat mengarahkan output ke format terstruktur yang masuk ke alat yang sudah ada.

Kinerja sekilas#

Sementara hasil Anda akan bervariasi berdasarkan domain, penulis melaporkan:

Text spotting: Hunyuan OCR mengungguli beberapa baseline OCR dan VLM populer pada tolok ukur internal.
Penguraian dokumen: Hunyuan OCR mencapai SOTA di OmniDocBench dan rangkaian internal multibahasa, melampaui VLM umum besar dan OCR-VLM khusus.
Ekstraksi informasi: Hunyuan OCR menunjukkan peningkatan yang kuat pada kartu, kwitansi, dan tugas ekstraksi subtitle dalam evaluasi internal.
Terjemahan gambar: Hunyuan OCR menawarkan akurasi yang sebanding dengan model yang jauh lebih besar sambil tetap dapat diterapkan.

Hasil ini, dipadukan dengan jejak 1B-parameter, menjadikan Hunyuan OCR peningkatan yang menarik jika Anda kesulitan menerapkan tumpukan OCR/VLM yang lebih besar.

Referensi:

Demo: https://huggingface.co/spaces/tencent/HunyuanOCR
Model: https://huggingface.co/tencent/HunyuanOCR
Repositori GitHub dan laporan teknis (lihat HunyuanOCR_Technical_Report.pdf dan https://arxiv.org/abs/2511.19575)

Di dalam model: cara kerja Hunyuan OCR#

Di balik layar, Hunyuan OCR menghubungkan encoder Vision Transformer (ViT) asli ke LLM ringan melalui adaptor MLP. Ini memungkinkan sisi visi untuk menangkap pola teks padat—font, skrip, tata letak—sementara sisi bahasa bernalar atas struktur, skema, dan instruksi. Hasilnya adalah perilaku OCR-plus-pemahaman terpadu yang didorong oleh prompt.

Laporan teknis juga menjelaskan strategi pembelajaran penguatan yang lebih meningkatkan instruksi khusus OCR dan kualitas output. Secara praktis, itu berarti Hunyuan OCR dapat diarahkan dengan prompt yang sangat spesifik (mis., “ekstrak hanya total sebagai USD dan kembalikan tanggal ISO”), yang sangat penting bagi kreator konten yang membutuhkan output yang bersih dan siap digunakan.

Persyaratan sistem dan instalasi#

Hunyuan OCR menerbitkan kode, bobot, dan mulai cepat untuk vLLM dan Transformers. Untuk throughput produksi, vLLM direkomendasikan; untuk skrip khusus atau pembuatan prototipe, Transformers berfungsi dengan baik.

Lingkungan minimum (sesuai panduan repositori):

OS: Linux
Python: 3.12+
CUDA: 12.9
PyTorch: 2.7.1
GPU: GPU NVIDIA dengan dukungan CUDA (sekitar 20 GB memori direkomendasikan untuk penyajian vLLM)
Disk: ~6 GB untuk bobot

Jalur instalasi:

Dengan vLLM (penyajian): instal vllm, unduh model dari Hugging Face, dan mulai server API.
Dengan Transformers (scripting): instal transformers dan accelerate, lalu muat checkpoint dan jalankan inferensi.

Hunyuan OCR mengekspos skrip yang jelas untuk kedua rute di README repo.

Mulai cepat: Hunyuan OCR dengan vLLM#

Instal vLLM dan dependensi:

pip install vllm

Luncurkan server vLLM dengan Hunyuan OCR:

python -m vllm.entrypoints.openai.api_server \
  --model tencent/HunyuanOCR \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9 \
  --port 8000

Panggil server melalui API yang kompatibel dengan OpenAI:

import base64, requests

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("invoice.jpg")
prompt = """Anda adalah asisten OCR dan ekstraksi informasi.
Tugas: Ekstrak vendor_name, date(YYYY-MM-DD), total_amount(USD), dan line_items dari gambar.
Kembalikan JSON yang valid dengan hanya kunci ini dan tanpa teks tambahan."""

payload = {
  "model": "tencent/HunyuanOCR",
  "messages": [
    {"role": "user", "content": [
      {"type": "text", "text": prompt},
      {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}}
    ]}
  ],
  "temperature": 0.0
}
r = requests.post("http://localhost:8000/v1/chat/completions", json=payload, timeout=120)
print(r.json()["choices"][0]["message"]["content"])

Dalam pengaturan ini, Hunyuan OCR merespons dengan JSON terstruktur yang dapat Anda masukkan langsung ke dalam pipeline Anda.

Mulai cepat: Hunyuan OCR dengan Transformers#

Instal dependensi:

pip install "transformers>=4.45.0" accelerate torch torchvision

Jalankan inferensi sederhana:

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import json

model_id = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_id, trust_remote_code=True).eval().cuda()

image = Image.open("receipt.png").convert("RGB")
prompt = (
  "Detect all text regions and recognize their content. "
  "Return a JSON array of {bbox:[x1,y1,x2,y2], text:'...'}."
)

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=1024)
result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(result)

Transformers memungkinkan Anda melakukan iterasi dengan cepat pada prompt, berintegrasi dengan notebook, dan menyusun Hunyuan OCR dengan alat Python lainnya.

Desain prompt: buat Hunyuan OCR bekerja untuk Anda#

Karena Hunyuan OCR bersifat end-to-end dan mengikuti instruksi, prompt Anda adalah antarmuka Anda. Prompt yang jelas dan terbatas menghasilkan output yang bersih.

Tips umum:

Nyatakan tugas, skema, dan format output secara eksplisit.
Untuk data terstruktur, minta JSON yang ketat dan daftarkan kunci dalam urutan.
Untuk input multibahasa, tentukan bahasa sumber dan target.
Untuk tugas tata letak, minta kotak pembatas atau urutan membaca sesuai kebutuhan.
Jaga suhu tetap rendah (0–0.2) untuk output deterministik.

Template prompt yang dapat Anda adaptasi:

Text spotting
- “Deteksi semua wilayah teks dan kenali kontennya. Kembalikan array JSON dari objek {bbox:[x1,y1,x2,y2], text:'...'} dalam urutan membaca.”
Penguraian dokumen
- “Urai dokumen ini menjadi judul, subjudul, bagian, tabel, dan catatan kaki. Untuk setiap tabel, sertakan array 2D sel. Kembalikan JSON dengan bidang: title, subtitle, sections[], tables[], footnotes[].”
Ekstraksi informasi untuk kwitansi
- “Ekstrak vendor_name, date (YYYY-MM-DD), currency (kode ISO), subtotal, tax, total, dan line_items[{name, qty, unit_price, amount}]. Kembalikan JSON yang valid dengan kunci yang tepat ini. Jika nilai hilang, atur ke null.”
Ekstraksi subtitle dari bingkai video
- “Identifikasi teks subtitle pada gambar. Kembalikan array {bbox, text} untuk setiap baris subtitle. Jika teks mencakup beberapa baris, pisahkan setiap baris.”
Terjemahan gambar
- “Terjemahkan semua teks yang terlihat dari [BAHASA_SUMBER] ke [BAHASA_TARGET]. Pertahankan urutan tata letak dan kembalikan array {bbox, source, target}. Jangan tambahkan penjelasan.”

Prompting adalah tempat Hunyuan OCR bersinar: Anda bisa mendapatkan dari piksel tidak terstruktur ke JSON terstruktur atau output bilingual tanpa bolak-balik antara modul OCR dan NLP terpisah.

Resep alur kerja untuk kreator konten#

Di bawah ini adalah cara praktis kreator konten dapat memasukkan Hunyuan OCR ke dalam pekerjaan sehari-hari.

Kreator video
- Pemulihan subtitle batch: Ambil sampel satu bingkai per detik, jalankan Hunyuan OCR dengan prompt text spotting subtitle, dan kumpulkan SRT kasar dengan stempel waktu. Pembersihan menjadi jauh lebih cepat.
- Teks bahasa asing: Jalankan Hunyuan OCR untuk mengekstrak teks, lalu terjemahkan melalui prompt terjemahan gambar untuk membuat draf subtitle bilingual.
Desainer dan tim lokalisasi
- Terjemahan poster dan UI: Untuk setiap aset, gunakan Hunyuan OCR untuk mengekstrak teks dengan kotak pembatas, terjemahkan, dan serahkan {bbox, target} ke desainer untuk pengetikan ulang di Figma atau Photoshop.
- QA Tata Letak: Minta Hunyuan OCR untuk urutan membaca dan header bagian untuk memverifikasi bahwa tata letak responsif masih dibaca secara logis.
Penulis, peneliti, editor
- Pemindaian dokumen ke catatan: Gunakan Hunyuan OCR untuk mengurai PDF menjadi bagian dan kutipan untuk penggunaan editorial langsung.
- Ekstraksi fakta: Prompt Hunyuan OCR untuk mengekstrak bidang kunci (tanggal, angka, entitas) di seluruh arsip yang dipindai dan mengembalikan dataset terpadu.
Pengisi suara dan studio dubbing
- Isolasi baris: Jika skrip disematkan dalam papan cerita atau panel manga, minta Hunyuan OCR mengekstrak teks baris demi baris, dengan tetap mempertahankan urutan panel.
- Konteks pengucapan: Gunakan Hunyuan OCR untuk menangkap nama dan istilah bahasa asli bersama dengan terjemahan untuk penyampaian yang akurat.

Setiap hal ini mendapat manfaat dari perilaku end-to-end Hunyuan OCR, menurunkan kemungkinan kerusakan pipeline dan secara besar-besaran mengurangi kode perekat.

Penerapan: vLLM vs. Transformers#

vLLM untuk penyajian
- Saat Anda membutuhkan server untuk menangani banyak pengguna, batch, atau throughput tinggi, vLLM adalah cara tercepat untuk menghosting Hunyuan OCR.
- Tips:
  - Mulai dengan GPU 20 GB+ untuk throughput yang lancar.
  - Gunakan suhu rendah dan atur token maks yang sesuai untuk ukuran output Anda.
  - Hangatkan server dengan beberapa permintaan sampel untuk menstabilkan latensi.
Transformers untuk scripting
- Saat Anda membuat prototipe prompt, menjalankan batch offline, atau membangun alat khusus kecil, Transformers menawarkan fleksibilitas.
- Tips:
  - Praproses gambar untuk DPI dan orientasi yang konsisten.
  - Batasi token output agar proses tetap dapat diprediksi.
  - Cache model dan prosesor di disk untuk startup yang lebih cepat.

Apa pun rute yang Anda pilih, Anda dapat menyimpan prompt yang sama dan menukar backend saat Anda berpindah dari prototipe ke produksi—kemenangan lain untuk Hunyuan OCR.

Pertimbangan praktis dan praktik terbaik#

Kualitas gambar penting
- Bahkan dengan pengenalan yang kuat, Hunyuan OCR mendapat manfaat dari gambar yang tajam. Miringkan, hilangkan noise, dan tingkatkan skala jika memungkinkan.
Bersikaplah eksplisit dengan skema
- Untuk tugas ekstraksi, terapkan nama dan jenis bidang. Hunyuan OCR merespons dengan baik terhadap instruksi yang tepat dan contoh JSON.
Batch secara cerdas
- Dalam penyajian vLLM, batch beberapa permintaan atau bingkai bila memungkinkan untuk meningkatkan throughput dengan Hunyuan OCR.
Pantau output
- Tambahkan validator untuk format tanggal, kode mata uang, atau rentang numerik. Jika nilai gagal validasi, prompt ulang Hunyuan OCR dengan instruksi korektif.
Hormati privasi
- ID sensitif, kwitansi medis, atau kontrak harus ditangani di bawah kebijakan data organisasi Anda. Menghosting sendiri Hunyuan OCR memberi Anda kontrol yang lebih ketat daripada API pihak ketiga.
Ketahui batasan Anda
- Dokumen multi-halaman yang sangat panjang mungkin memerlukan pemotongan. Gunakan prompt halaman demi halaman dan gabungkan hasil, atau minta Hunyuan OCR untuk meringkas bagian secara progresif.

Catatan arsitektur dan pelatihan (untuk yang penasaran)#

Arsitektur ramping mendukung Hunyuan OCR:

Tulang punggung visi: ViT asli menangani fitur teks padat dan petunjuk tata letak.
Kepala bahasa: LLM ringkas melakukan instruksi dan pembuatan terstruktur.
Adaptor MLP: Menjembatani penyematan visi dan kepala bahasa.
Strategi RL: Seperti yang dilaporkan, pembelajaran penguatan memberikan kontribusi peningkatan penting pada instruksi gaya OCR, meningkatkan kepatuhan terhadap format dan skema.

Campuran ini menjelaskan mengapa Hunyuan OCR dapat diarahkan secara tepat—memintanya untuk JSON yang ketat atau output bilingual yang selaras berfungsi dengan andal dibandingkan dengan tumpukan OCR tradisional.

Langkah demi langkah: membangun pipeline penguraian dokumen#

Untuk melihat Hunyuan OCR beraksi, berikut adalah alur PDF-ke-JSON-terstruktur sederhana:

Konversi halaman ke gambar (mis., PNG 300 DPI).
Untuk setiap halaman, prompt Hunyuan OCR untuk mengurai bagian, header, tabel, dan footer.
Validasi: pastikan setiap tabel memiliki jumlah kolom yang sama per baris; paksa tanggal ke ISO.
Gabungkan: gabungkan hasil tingkat halaman; alirkan ulang bagian dalam urutan membaca.
Ekspor: simpan JSON akhir di CMS atau gudang data Anda dan simpan hash file sumber.

Satu model berarti lebih sedikit sakit kepala integrasi dan lebih sedikit pemeliharaan—salah satu keuntungan terbesar Hunyuan OCR untuk tim kecil dan menengah.

Tempat mencoba, mengunduh, dan mempelajari lebih lanjut#

Demo langsung: Jelajahi Hunyuan OCR di browser Anda di Hugging Face Spaces
- https://huggingface.co/spaces/tencent/HunyuanOCR
Bobot model: Unduh Hunyuan OCR dari Hugging Face
- https://huggingface.co/tencent/HunyuanOCR
Kode sumber dan pengaturan: Repositori lengkap dengan instruksi, prompt, dan detail evaluasi
- GitHub (cari HunyuanOCR)
Laporan teknis: Metode, ablasi, dan strategi RL
- https://arxiv.org/abs/2511.19575 (juga disertakan sebagai HunyuanOCR_Technical_Report.pdf di repo)

Kesimpulan: peningkatan OCR praktis untuk tim kreatif modern#

Hunyuan OCR menghadirkan OCR end-to-end, cakupan multibahasa, dan akurasi yang kuat ke dalam paket 1B-parameter ringkas yang benar-benar dapat Anda terapkan. Alih-alih menjahit deteksi, pengenalan, penguraian, dan terjemahan, Anda mem-prompt satu model untuk mengembalikan persis apa yang dibutuhkan alur kerja Anda—JSON bersih, terjemahan yang selaras, atau subtitle yang diberi stempel waktu.

Untuk kreator konten yang hidup dalam dokumen, bingkai, dan file desain, Hunyuan OCR memungkinkan:

Waktu penyelesaian lebih cepat dengan lebih sedikit alat
Output yang lebih bersih dan konsisten dengan skema
Pemrosesan multibahasa yang andal
Penerapan langsung melalui vLLM atau Transformers

Jika Anda telah menunggu mesin OCR yang sesuai dengan produksi nyata sambil menjaga overhead pengembang tetap kecil, Hunyuan OCR adalah tempat yang tepat untuk memulai. Coba demo, muat model, dan lihat berapa banyak waktu yang dapat Anda menangkan kembali minggu ini.