Hunyuan OCR：創作者可以實際部署的端到端、多語言 OCR 引擎

創作者為何應該關注 Hunyuan OCR#

如果您的創作流程涉及圖像、PDF、設計素材或影片幀中的文字，Hunyuan OCR 是一項難得的升級，可以全面節省時間。Hunyuan OCR 由騰訊 Hunyuan 構建，作為一個 10 億參數的端到端視覺語言模型，Hunyuan OCR 將整個 OCR 堆疊——檢測、識別、解析、提取，甚至翻譯——整合到一個模型中。這意味著更少的移動部件、更少的脆弱膠水腳本，以及更少的下游錯誤，這些錯誤會破壞您的流程。

對於內容創作者——提取字幕的影片編輯、本地化佈局的設計師、研究文件的作家，或批量處理腳本的配音演員——Hunyuan OCR 將強大的準確性與實際速度和部署簡便性相結合。它支援 100 多種語言，可以透過 vLLM 或 Transformers 有效率地運行，並將清晰、面向任務的提示與生產友好的推論途徑配對。

在本指南中，您將了解 Hunyuan OCR 的與眾不同之處、它可以為您的特定創作角色做什麼，以及如何在幾分鐘內讓它運行起來。

Hunyuan OCR 的與眾不同之處#

傳統的 OCR 流程會將多個模型和啟發法串聯起來：檢測文字區域、裁剪、識別字元、後處理，然後解析結構。每個步驟都可能引入複合錯誤。Hunyuan OCR 的端到端方法簡化了這個堆疊，因此您可以透過單次正向傳遞從圖像到結構化輸出。

主要區別：

端到端設計：Hunyuan OCR 透過將檢測、識別和下游理解整合到一個屋簷下，避免了串聯 OCR 堆疊中常見的錯誤傳播。
輕量級能力：Hunyuan OCR 僅使用 10 億個參數即可實現最先進的結果，使其易於運輸和擴展。
多語言覆蓋：Hunyuan OCR 支援 100 多種語言，從而解鎖了全球內容製作和本地化。
廣泛的任務覆蓋：Hunyuan OCR 處理文字定位、文件解析、資訊提取、影片字幕提取、圖像翻譯和文件問答。
隨插即用部署：Hunyuan OCR 可以與 vLLM 一起運行以實現高吞吐量服務，也可以與 Transformers 一起運行以實現靈活的腳本編寫流程。

根據官方儲存庫和技術報告中發布的基準測試，Hunyuan OCR 在文件解析（例如，OmniDocBench）上提供了 SOTA 效能，並在內部評估中在文字定位和資訊提取方面取得了強勁的結果，同時在圖像翻譯方面緊密競爭——所有這些都具有緊湊的模型尺寸。

Hunyuan OCR 可以為創作者做什麼#

Hunyuan OCR 旨在以最小的摩擦解決實際的創作者問題：

影片字幕提取
- 從幀或剪輯中提取字幕。
- 將燒錄字幕轉換為時間對齊的文字以進行編輯。
- 建立多語言字幕草稿以進行翻譯。
文件解析和佈局理解
- 將 PDF、表單和小冊子轉換為結構化欄位。
- 提取表格、標題、清單和閱讀順序。
- 產生可供 CMS 攝取的 JSON 格式輸出。
收據、發票和 ID 的資訊提取
- 提取供應商名稱、總計、日期欄位、地址和 ID。
- 實施固定的批次處理架構。
創意素材的圖像翻譯
- 翻譯海報、社交圖形、UI 螢幕或漫畫中的文字。
- 保留佈局語義以指導重新排版。
用於研究密集型工作流程的文件問答
- 詢問長篇文件的問題，並接收帶有證據的針對性答案。
- 交叉檢查從複雜文件中提取的欄位。

對於這些任務中的每一個，Hunyuan OCR 都以「面向應用程式的提示」為中心，因此您可以將輸出引導到結構化格式，這些格式可以插入到您現有的工具中。

效能概覽#

雖然您的結果會因領域而異，但作者報告：

文字定位：Hunyuan OCR 在內部基準測試中優於多個流行的 OCR 和 VLM 基準。
文件解析：Hunyuan OCR 在 OmniDocBench 和多語言內部套件上達到 SOTA，超越了大型通用 VLM 和專用 OCR-VLM。
資訊提取：Hunyuan OCR 在內部評估中顯示出在卡片、收據和字幕提取任務方面的強勁增長。
圖像翻譯：Hunyuan OCR 提供與遠大模型相當的準確性，同時保持可部署性。

這些結果，加上其 10 億參數的佔用空間，使 Hunyuan OCR 成為一個引人注目的升級，如果您一直在努力部署更龐大的 OCR/VLM 堆疊。

參考文獻：

演示：https://huggingface.co/spaces/tencent/HunyuanOCR
模型：https://huggingface.co/tencent/HunyuanOCR
GitHub 儲存庫和技術報告（請參閱 HunyuanOCR_Technical_Report.pdf 和 https://arxiv.org/abs/2511.19575）

模型內部：Hunyuan OCR 的工作原理#

在底層，Hunyuan OCR 透過 MLP 轉接器將原生視覺轉換器 (ViT) 編碼器連接到輕量級 LLM。這允許視覺端捕獲密集的文字模式——字體、腳本、佈局——而語言端則推理結構、架構和指令。結果是由提示驅動的統一 OCR 加上理解行為。

技術報告還描述了進一步提高 OCR 特定指令遵循和輸出品質的強化學習策略。實際上，這意味著 Hunyuan OCR 可以透過高度特定的提示來引導（例如，「僅提取以美元為單位的總計並傳回 ISO 日期」），這對於需要乾淨、隨時可用的輸出的創作者至關重要。

系統需求和安裝#

Hunyuan OCR 發布了 vLLM 和 Transformers 的程式碼、權重和快速入門。對於生產吞吐量，建議使用 vLLM；對於自訂腳本或原型設計，Transformers 效果很好。

最低環境（根據儲存庫指南）：

作業系統：Linux
Python：3.12+
CUDA：12.9
PyTorch：2.7.1
GPU：支援 CUDA 的 NVIDIA GPU（建議 vLLM 服務使用約 20 GB 記憶體）
磁碟：~6 GB 用於權重

安裝路徑：

使用 vLLM（服務）：安裝 vllm，從 Hugging Face 下載模型，然後啟動 API 伺服器。
使用 Transformers（腳本編寫）：安裝 transformers 和 accelerate，然後載入檢查點並運行推論。

Hunyuan OCR 在儲存庫的 README 中公開了這兩種途徑的清晰腳本。

快速入門：使用 vLLM 的 Hunyuan OCR#

安裝 vLLM 和相依性：

pip install vllm

使用 Hunyuan OCR 啟動 vLLM 伺服器：

python -m vllm.entrypoints.openai.api_server \
  --model tencent/HunyuanOCR \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9 \
  --port 8000

透過與 OpenAI 相容的 API 呼叫伺服器：

import base64, requests

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("invoice.jpg")
prompt = """您是一個 OCR 和資訊提取助理。
任務：從圖像中提取 vendor_name、date(YYYY-MM-DD)、total_amount(USD) 和 line_items。
僅傳回具有這些鍵的有效 JSON，沒有額外的文字。"""

payload = {
  "model": "tencent/HunyuanOCR",
  "messages": [
    {"role": "user", "content": [
      {"type": "text", "text": prompt},
      {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}}
    ]}
  ],
  "temperature": 0.0
}
r = requests.post("http://localhost:8000/v1/chat/completions", json=payload, timeout=120)
print(r.json()["choices"][0]["message"]["content"])

在此設定中，Hunyuan OCR 會傳回結構化的 JSON，您可以直接將其饋送到您的流程中。

快速入門：使用 Transformers 的 Hunyuan OCR#

安裝相依性：

pip install "transformers>=4.45.0" accelerate torch torchvision

運行簡單的推論：

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import json

model_id = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_id, trust_remote_code=True).eval().cuda()

image = Image.open("receipt.png").convert("RGB")
prompt = (
  "檢測所有文字區域並識別其內容。 "
  "傳回 {bbox:[x1,y1,x2,y2], text:'...'} 的 JSON 陣列。"
)

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=1024)
result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(result)

Transformers 讓您可以快速迭代提示、與筆記本電腦整合，以及將 Hunyuan OCR 與其他 Python 工具組合。

提示設計：讓 Hunyuan OCR 為您工作#

由於 Hunyuan OCR 是端到端的並且遵循指令，因此您的提示就是您的介面。清晰、受限的提示會產生乾淨的輸出。

一般提示：

明確說明任務、架構和輸出格式。
對於結構化資料，要求嚴格的 JSON 並按順序列出鍵。
對於多語言輸入，請指定來源和目標語言。
對於佈局任務，請根據需要請求邊界框或閱讀順序。
保持低溫度 (0–0.2) 以獲得確定性輸出。

您可以調整的提示範本：

文字定位
- 「檢測所有文字區域並識別其內容。傳回物件 {bbox:[x1,y1,x2,y2], text:'...'} 的 JSON 陣列，並按閱讀順序排列。」
文件解析
- 「將此文件解析為標題、副標題、章節、表格和註腳。對於每個表格，包括一個二維儲存格陣列。傳回具有欄位的 JSON：title、subtitle、sections[]、tables[]、footnotes[]。」
收據的資訊提取
- 「提取 vendor_name、date (YYYY-MM-DD)、currency (ISO code)、subtotal、tax、total 和 line_items[{name, qty, unit_price, amount}]。傳回具有這些確切鍵的有效 JSON。如果缺少值，請將其設定為 null。」
從影片幀中提取字幕
- 「識別圖像上的字幕文字。傳回每個字幕行的 {bbox, text} 陣列。如果文字跨越多行，請保持每行分開。」
圖像翻譯
- 「將所有可見文字從 [SOURCE_LANGUAGE] 翻譯為 [TARGET_LANGUAGE]。保持佈局順序並傳回 {bbox, source, target} 陣列。不要新增說明。」

提示是 Hunyuan OCR 的優勢所在：您可以從非結構化像素到結構化 JSON 或雙語輸出，而無需在單獨的 OCR 和 NLP 模組之間來回傳輸。

創作者的工作流程食譜#

以下是創作者可以將 Hunyuan OCR 融入日常工作的實用方法。

影片創作者
- 批量字幕恢復：每秒取樣一個幀，使用字幕定位提示運行 Hunyuan OCR，並組裝一個帶有時間戳記的粗略 SRT。清理變得非常快。
- 外語字幕：運行 Hunyuan OCR 提取文字，然後透過圖像翻譯提示進行翻譯，以建立雙語字幕草稿。
設計師和本地化團隊
- 海報和 UI 翻譯：對於每個素材，使用 Hunyuan OCR 提取帶有邊界框的文字，進行翻譯，然後將 {bbox, target} 交給設計師，以便在 Figma 或 Photoshop 中重新排版。
- 佈局 QA：要求 Hunyuan OCR 提供閱讀順序和章節標題，以驗證響應式佈局是否仍然在邏輯上可讀。
作家、研究人員、編輯
- 文件掃描到筆記：使用 Hunyuan OCR 將 PDF 解析為章節和引言，以供立即編輯使用。
- 事實提取：提示 Hunyuan OCR 提取掃描檔案中的關鍵欄位（日期、數字、實體）並傳回統一的資料集。
配音演員和配音工作室
- 行隔離：如果腳本嵌入在故事板或漫畫面板中，請讓 Hunyuan OCR 提取逐行文字，並保留面板順序。
- 發音上下文：使用 Hunyuan OCR 捕獲原始語言名稱和術語以及翻譯，以實現準確的交付。

這些都受益於 Hunyuan OCR 的端到端行為，降低了流程中斷的機率，並大大減少了膠水程式碼。

部署：vLLM 與 Transformers#

用於服務的 vLLM
- 當您需要伺服器來處理多個使用者、批次或高吞吐量時，vLLM 是託管 Hunyuan OCR 的最快方式。
- 提示：
  - 從 20 GB+ GPU 開始，以實現平穩的吞吐量。
  - 使用低溫度並設定適合您輸出大小的最大權杖。
  - 使用一些範例請求來預熱伺服器，以穩定延遲。
用於腳本編寫的 Transformers
- 當您正在原型設計提示、運行離線批次或建構小型客製化工具時，Transformers 提供了靈活性。
- 提示：
  - 預處理圖像以獲得一致的 DPI 和方向。
  - 限制輸出權杖以保持運行可預測。
  - 在磁碟上快取模型和處理器以加快啟動速度。

無論您選擇哪種途徑，您都可以保持相同的提示，並在從原型設計轉移到生產時交換後端——這是 Hunyuan OCR 的另一個優勢。

實際考量和最佳實務#

圖像品質很重要
- 即使具有強大的識別能力，Hunyuan OCR 也能從清晰的圖像中受益。在可行的情況下，進行去扭曲、去噪和升級。
明確使用架構
- 對於提取任務，強制執行欄位名稱和類型。Hunyuan OCR 對於精確的指令和 JSON 範例反應良好。
智慧地批次處理
- 在 vLLM 服務中，盡可能批次處理多個請求或幀，以提高 Hunyuan OCR 的吞吐量。
監控輸出
- 為日期格式、貨幣代碼或數值範圍新增驗證器。如果值未通過驗證，請使用更正指令重新提示 Hunyuan OCR。
尊重隱私
- 敏感 ID、醫療收據或合約應根據您組織的資料政策進行處理。自我託管 Hunyuan OCR 比第三方 API 讓您擁有更嚴格的控制權。
了解您的限制
- 非常長的多頁文件可能需要分塊。使用逐頁提示並拼接結果，或要求 Hunyuan OCR 逐步總結章節。

架構和訓練筆記（供好奇者參考）#

精簡的架構為 Hunyuan OCR 提供動力：

視覺骨幹：原生 ViT 處理密集的文字特徵和佈局提示。
語言頭：緊湊的 LLM 執行指令遵循和結構化產生。
MLP 轉接器：橋接視覺嵌入和語言頭。
RL 策略：如報告所示，強化學習有助於在 OCR 樣式指令方面取得顯著進展，從而提高對格式和架構的遵守程度。

這種組合解釋了為什麼 Hunyuan OCR 可以精確地引導——與傳統的 OCR 堆疊相比，要求它提供嚴格的 JSON 或雙語對齊輸出可以可靠地工作。

逐步：建構文件解析流程#

若要查看 Hunyuan OCR 的實際運作情況，以下是一個簡單的 PDF 到結構化 JSON 流程：

將頁面轉換為圖像（例如，300 DPI PNG）。
對於每個頁面，提示 Hunyuan OCR 解析章節、標題、表格和頁尾。
驗證：確保每個表格的每行都具有相同的欄數；將日期強制轉換為 ISO。
合併：合併頁面級別的結果；以閱讀順序重新排列章節。
匯出：將最終 JSON 儲存在您的 CMS 或資料倉儲中，並保留來源檔案的雜湊。

單一模型意味著更少的整合麻煩和更少的維護——這是 Hunyuan OCR 對於中小型團隊的最大優勢之一。

在哪裡試用、下載和了解更多資訊#

即時演示：在 Hugging Face Spaces 上的瀏覽器中探索 Hunyuan OCR
- https://huggingface.co/spaces/tencent/HunyuanOCR
模型權重：從 Hugging Face 下載 Hunyuan OCR
- https://huggingface.co/tencent/HunyuanOCR
原始程式碼和設定：包含說明、提示和評估詳細資訊的完整儲存庫
- GitHub（搜尋 HunyuanOCR）
技術報告：方法、消融和 RL 策略
- https://arxiv.org/abs/2511.19575（也包含在儲存庫中作為 HunyuanOCR_Technical_Report.pdf）

結論：適用於現代創意團隊的實用 OCR 升級#

Hunyuan OCR 將端到端 OCR、多語言覆蓋和強大的準確性整合到一個緊湊的 10 億參數套件中，您可以實際部署它。您可以提示一個模型傳回您的工作流程所需的內容——乾淨的 JSON、對齊的翻譯或帶有時間戳記的字幕，而不是將檢測、識別、解析和翻譯拼接在一起。

對於生活在文件、幀和設計檔案中的內容創作者，Hunyuan OCR 能夠：

使用更少的工具更快地完成工作
更乾淨、架構一致的輸出
可靠的多語言處理
透過 vLLM 或 Transformers 輕鬆部署

如果您一直在等待一個適合實際生產的 OCR 引擎，同時保持較低的開發人員管理費用，那麼 Hunyuan OCR 是正確的起點。試用演示、載入模型，看看您本週可以節省多少時間。