Hunyuan OCR : Le moteur OCR multilingue de bout en bout que les créateurs peuvent réellement déployer

Pourquoi les créateurs devraient s'intéresser à Hunyuan OCR#

Si votre flux de travail créatif touche au texte dans des images, des PDF, des éléments de conception ou des trames vidéo, Hunyuan OCR est la rare mise à niveau qui permet de gagner du temps à tous les niveaux. Construit par Tencent Hunyuan en tant que modèle Vision-Langage de bout en bout avec 1 milliard de paramètres, Hunyuan OCR intègre l'ensemble de la pile OCR (détection, reconnaissance, analyse, extraction, voire traduction) dans un seul modèle. Cela signifie moins de pièces mobiles, moins de scripts de collage fragiles et moins d'erreurs en aval qui font dérailler votre pipeline.

Pour les créateurs de contenu (monteurs vidéo extrayant des sous-titres, concepteurs localisant des mises en page, rédacteurs recherchant des documents ou acteurs vocaux traitant des scripts par lots), Hunyuan OCR combine une grande précision avec une rapidité pratique et une simplicité de déploiement. Il prend en charge plus de 100 langues, fonctionne efficacement avec vLLM ou Transformers, et associe des invites claires et axées sur les tâches à des itinéraires d'inférence adaptés à la production.

Dans ce guide, vous apprendrez ce qui distingue Hunyuan OCR, ce qu'il peut faire pour votre rôle créatif spécifique et comment le faire fonctionner en quelques minutes.

Ce qui rend Hunyuan OCR différent#

Les pipelines OCR traditionnels enchaînent plusieurs modèles et heuristiques : détecter les régions de texte, recadrer, reconnaître les caractères, post-traiter, puis analyser la structure. Chaque étape peut introduire des erreurs qui s'accumulent. L'approche de bout en bout de Hunyuan OCR simplifie cette pile afin que vous puissiez passer de l'image à une sortie structurée en une seule passe avant.

Principaux éléments différenciateurs :

Conception de bout en bout : Hunyuan OCR évite la propagation des erreurs courantes dans les piles OCR en cascade en gardant la détection, la reconnaissance et la compréhension en aval sous un même toit.
Puissance légère : Hunyuan OCR obtient des résultats de pointe avec seulement 1 milliard de paramètres, ce qui le rend pratique à expédier et à mettre à l'échelle.
Portée multilingue : Hunyuan OCR prend en charge plus de 100 langues, ce qui permet la production et la localisation de contenu à l'échelle mondiale.
Large couverture des tâches : Hunyuan OCR gère la détection de texte, l'analyse de documents, l'extraction d'informations, l'extraction de sous-titres vidéo, la traduction d'images et les questions-réponses sur les documents.
Déploiement plug-and-play : Hunyuan OCR peut fonctionner avec vLLM pour un service à haut débit ou avec Transformers pour des flux de travail de script flexibles.

Selon les benchmarks publiés dans le référentiel officiel et le rapport technique, Hunyuan OCR offre des performances SOTA en matière d'analyse de documents (par exemple, OmniDocBench) et des résultats solides en matière de détection de texte et d'extraction d'informations lors d'évaluations internes, tout en étant en concurrence étroite en matière de traduction d'images, le tout avec une taille de modèle compacte.

Ce que Hunyuan OCR peut faire pour les créateurs#

Hunyuan OCR est conçu pour résoudre les problèmes pratiques des créateurs avec un minimum de friction :

Extraction de sous-titres vidéo
- Extraire les sous-titres des trames ou des clips.
- Convertir les légendes incrustées en texte aligné dans le temps pour le montage.
- Créer des brouillons de sous-titres multilingues pour la traduction.
Analyse de documents et compréhension de la mise en page
- Convertir les PDF, les formulaires et les brochures en champs structurés.
- Extraire les tableaux, les en-têtes, les listes et l'ordre de lecture.
- Générer des sorties prêtes pour JSON pour l'ingestion CMS.
Extraction d'informations pour les reçus, les factures et les pièces d'identité
- Extraire les noms des fournisseurs, les totaux, les champs de date, les adresses et les pièces d'identité.
- Appliquer un schéma fixe pour le traitement par lots.
Traduction d'images pour les éléments créatifs
- Traduire le texte dans les affiches, les graphiques sociaux, les écrans d'interface utilisateur ou les bandes dessinées.
- Conserver la sémantique de la mise en page pour guider la re-composition.
QA de documents pour les flux de travail à forte intensité de recherche
- Poser des questions sur de longs documents et recevoir des réponses ciblées avec des preuves.
- Vérifier les champs extraits de documents complexes.

Pour chacune de ces tâches, Hunyuan OCR se concentre sur des « invites orientées application », afin que vous puissiez orienter les sorties vers des formats structurés qui s'intègrent à vos outils existants.

Performances en un coup d'œil#

Bien que vos résultats varient selon le domaine, les auteurs signalent :

Détection de texte : Hunyuan OCR surpasse plusieurs OCR populaires et les bases de référence VLM sur un benchmark interne.
Analyse de documents : Hunyuan OCR atteint SOTA sur OmniDocBench et une suite interne multilingue, dépassant les grands VLM généraux et les OCR-VLM spécialisés.
Extraction d'informations : Hunyuan OCR montre de forts gains sur les cartes, les reçus et les tâches d'extraction de sous-titres lors d'évaluations internes.
Traduction d'images : Hunyuan OCR offre une précision comparable à celle de modèles beaucoup plus grands tout en restant déployable.

Ces résultats, associés à son empreinte de 1 milliard de paramètres, font de Hunyuan OCR une mise à niveau intéressante si vous avez eu du mal à déployer des piles OCR/VLM plus volumineuses.

Références :

Démo : https://huggingface.co/spaces/tencent/HunyuanOCR
Modèle : https://huggingface.co/tencent/HunyuanOCR
Référentiel GitHub et rapport technique (voir HunyuanOCR_Technical_Report.pdf et https://arxiv.org/abs/2511.19575)

À l'intérieur du modèle : comment fonctionne Hunyuan OCR#

En coulisses, Hunyuan OCR connecte un encodeur Vision Transformer (ViT) natif à un LLM léger via un adaptateur MLP. Cela permet au côté vision de capturer des modèles de texte denses (polices, scripts, mises en page) tandis que le côté langage raisonne sur la structure, les schémas et les instructions. Le résultat est un comportement unifié OCR-plus-compréhension piloté par des invites.

Le rapport technique décrit également les stratégies d'apprentissage par renforcement qui améliorent encore le suivi des instructions spécifiques à l'OCR et la qualité de la sortie. Concrètement, cela signifie que Hunyuan OCR peut être piloté avec des invites très spécifiques (par exemple, « extraire uniquement les totaux en USD et renvoyer les dates ISO »), ce qui est essentiel pour les créateurs qui ont besoin de sorties propres et prêtes à l'emploi.

Configuration système requise et installation#

Hunyuan OCR publie du code, des poids et des démarrages rapides pour vLLM et Transformers. Pour le débit de production, vLLM est recommandé ; pour les scripts personnalisés ou le prototypage, Transformers fonctionne bien.

Environnement minimum (par les instructions du référentiel) :

Système d'exploitation : Linux
Python : 3.12+
CUDA : 12.9
PyTorch : 2.7.1
GPU : GPU NVIDIA avec prise en charge de CUDA (environ 20 Go de mémoire recommandés pour le service vLLM)
Disque : ~6 Go pour les poids

Chemins d'installation :

Avec vLLM (service) : installez vllm, téléchargez le modèle depuis Hugging Face et démarrez un serveur API.
Avec Transformers (script) : installez transformers et accelerate, puis chargez le point de contrôle et exécutez l'inférence.

Hunyuan OCR expose des scripts clairs pour les deux itinéraires dans le fichier README du référentiel.

Démarrage rapide : Hunyuan OCR avec vLLM#

Installez vLLM et les dépendances :

pip install vllm

Lancez un serveur vLLM avec Hunyuan OCR :

python -m vllm.entrypoints.openai.api_server \
  --model tencent/HunyuanOCR \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9 \
  --port 8000

Appelez le serveur via l'API compatible OpenAI :

import base64, requests

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("invoice.jpg")
prompt = """Vous êtes un assistant OCR et d'extraction d'informations.
Tâche : Extraire vendor_name, date(AAAA-MM-JJ), total_amount(USD) et line_items de l'image.
Renvoyer un JSON valide avec ces clés uniquement et sans texte supplémentaire."""

payload = {
  "model": "tencent/HunyuanOCR",
  "messages": [
    {"role": "user", "content": [
      {"type": "text", "text": prompt},
      {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}}
    ]}
  ],
  "temperature": 0.0
}
r = requests.post("http://localhost:8000/v1/chat/completions", json=payload, timeout=120)
print(r.json()["choices"][0]["message"]["content"])

Dans cette configuration, Hunyuan OCR répond avec un JSON structuré que vous pouvez directement intégrer à votre pipeline.

Démarrage rapide : Hunyuan OCR avec Transformers#

Installez les dépendances :

pip install "transformers>=4.45.0" accelerate torch torchvision

Exécutez une inférence simple :

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import json

model_id = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_id, trust_remote_code=True).eval().cuda()

image = Image.open("receipt.png").convert("RGB")
prompt = (
  "Detect all text regions and recognize their content. "
  "Return a JSON array of {bbox:[x1,y1,x2,y2], text:'...'}."
)

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=1024)
result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(result)

Transformers vous permet d'itérer rapidement sur les invites, de vous intégrer aux notebooks et de composer Hunyuan OCR avec d'autres outils Python.

Conception d'invites : faites fonctionner Hunyuan OCR pour vous#

Étant donné que Hunyuan OCR est de bout en bout et suit les instructions, votre invite est votre interface. Des invites claires et contraintes produisent des sorties propres.

Conseils généraux :

Indiquez explicitement la tâche, le schéma et le format de sortie.
Pour les données structurées, demandez un JSON strict et listez les clés dans l'ordre.
Pour les entrées multilingues, spécifiez les langues source et cible.
Pour les tâches de mise en page, demandez les boîtes englobantes ou l'ordre de lecture selon les besoins.
Maintenez une température basse (0–0,2) pour des sorties déterministes.

Modèles d'invites que vous pouvez adapter :

Détection de texte
- « Détecter toutes les régions de texte et reconnaître leur contenu. Renvoyer un tableau JSON d'objets {bbox:[x1,y1,x2,y2], text:'...'} dans l'ordre de lecture. »
Analyse de documents
- « Analyser ce document en titre, sous-titre, sections, tableaux et notes de bas de page. Pour chaque tableau, inclure un tableau 2D de cellules. Renvoyer un JSON avec les champs : title, subtitle, sections[], tables[], footnotes[]. »
Extraction d'informations pour les reçus
- « Extraire vendor_name, date (AAAA-MM-JJ), currency (code ISO), subtotal, tax, total et line_items[{name, qty, unit_price, amount}]. Renvoyer un JSON valide avec ces clés exactes. Si une valeur est manquante, la définir sur null. »
Extraction de sous-titres à partir de trames vidéo
- « Identifier le texte des sous-titres sur l'image. Renvoyer un tableau de {bbox, text} pour chaque ligne de sous-titre. Si le texte s'étend sur plusieurs lignes, conserver chaque ligne séparée. »
Traduction d'images
- « Traduire tout le texte visible de [LANGUE_SOURCE] vers [LANGUE_CIBLE]. Conserver l'ordre de la mise en page et renvoyer un tableau de {bbox, source, target}. Ne pas ajouter d'explications. »

L'invite est l'endroit où Hunyuan OCR brille : vous pouvez passer de pixels non structurés à un JSON structuré ou à des sorties bilingues sans aller-retour entre des modules OCR et NLP distincts.

Recettes de flux de travail pour les créateurs#

Vous trouverez ci-dessous des façons pratiques pour les créateurs d'intégrer Hunyuan OCR dans leur travail quotidien.

Créateurs de vidéos
- Récupération de sous-titres par lots : Échantillonner une trame par seconde, exécuter Hunyuan OCR avec une invite de détection de sous-titres et assembler un SRT brut avec des horodatages. Le nettoyage devient considérablement plus rapide.
- Légendes en langue étrangère : Exécuter Hunyuan OCR pour extraire le texte, puis traduire via une invite de traduction d'image pour créer des brouillons de sous-titres bilingues.
Concepteurs et équipes de localisation
- Traduction d'affiches et d'interfaces utilisateur : Pour chaque élément, utiliser Hunyuan OCR pour extraire le texte avec des boîtes englobantes, traduire et remettre {bbox, target} aux concepteurs pour la re-composition dans Figma ou Photoshop.
- QA de la mise en page : Demander à Hunyuan OCR l'ordre de lecture et les en-têtes de section pour vérifier que les mises en page réactives se lisent toujours logiquement.
Rédacteurs, chercheurs, éditeurs
- Numérisation de documents vers des notes : Utiliser Hunyuan OCR pour analyser les PDF en sections et en citations pour une utilisation éditoriale immédiate.
- Extraction de faits : Inviter Hunyuan OCR à extraire les champs clés (dates, chiffres, entités) dans les archives numérisées et à renvoyer un ensemble de données unifié.
Acteurs vocaux et studios de doublage
- Isolation des lignes : Si les scripts sont intégrés dans des storyboards ou des panneaux de manga, demander à Hunyuan OCR d'extraire le texte ligne par ligne, en conservant l'ordre des panneaux.
- Contexte de prononciation : Utiliser Hunyuan OCR pour capturer les noms et les termes dans la langue d'origine ainsi que les traductions pour une diffusion précise.

Chacun de ces éléments bénéficie du comportement de bout en bout de Hunyuan OCR, ce qui réduit les risques de rupture du pipeline et réduit considérablement le code de collage.

Déploiement : vLLM vs. Transformers#

vLLM pour le service
- Lorsque vous avez besoin d'un serveur pour gérer plusieurs utilisateurs, lots ou un débit élevé, vLLM est le moyen le plus rapide d'héberger Hunyuan OCR.
- Conseils :
  - Commencez avec un GPU de 20 Go+ pour un débit fluide.
  - Utilisez une température basse et définissez le nombre maximal de jetons approprié pour la taille de votre sortie.
  - Réchauffez le serveur avec quelques exemples de requêtes pour stabiliser la latence.
Transformers pour le script
- Lorsque vous prototypez des invites, exécutez des lots hors ligne ou créez de petits outils sur mesure, Transformers offre une flexibilité.
- Conseils :
  - Prétraitez les images pour une résolution et une orientation cohérentes.
  - Limitez les jetons de sortie pour que les exécutions restent prévisibles.
  - Mettez en cache le modèle et le processeur sur le disque pour des démarrages plus rapides.

Quel que soit l'itinéraire que vous choisissez, vous pouvez conserver les mêmes invites et échanger les backends lorsque vous passez du prototype à la production, un autre avantage pour Hunyuan OCR.

Considérations pratiques et meilleures pratiques#

La qualité de l'image est importante
- Même avec une reconnaissance robuste, Hunyuan OCR bénéficie d'images nettes. Redressez, débruitez et mettez à l'échelle lorsque cela est possible.
Soyez explicite avec les schémas
- Pour les tâches d'extraction, appliquez les noms et les types de champs. Hunyuan OCR répond bien aux instructions précises et aux exemples JSON.
Traitez par lots intelligemment
- Dans le service vLLM, traitez par lots plusieurs requêtes ou trames lorsque cela est possible pour augmenter le débit avec Hunyuan OCR.
Surveillez les sorties
- Ajoutez des validateurs pour les formats de date, les codes de devise ou les plages numériques. Si une valeur échoue à la validation, relancez Hunyuan OCR avec une instruction corrective.
Respectez la confidentialité
- Les pièces d'identité sensibles, les reçus médicaux ou les contrats doivent être traités conformément aux politiques de données de votre organisation. L'auto-hébergement de Hunyuan OCR vous donne un contrôle plus strict que les API tierces.
Connaissez vos limites
- Les documents multipages très longs peuvent nécessiter un découpage. Utilisez des invites page par page et assemblez les résultats, ou demandez à Hunyuan OCR de résumer les sections progressivement.

Notes sur l'architecture et la formation (pour les curieux)#

Une architecture allégée alimente Hunyuan OCR :

Backbone de vision : Un ViT natif gère les caractéristiques de texte denses et les repères de mise en page.
Tête de langage : Un LLM compact effectue le suivi des instructions et la génération structurée.
Adaptateur MLP : Relie les incorporations de vision et la tête de langage.
Stratégies RL : Comme indiqué, l'apprentissage par renforcement contribue à des gains notables sur les instructions de style OCR, améliorant l'adhérence aux formats et aux schémas.

Ce mélange explique pourquoi Hunyuan OCR peut être piloté avec précision : lui demander un JSON strict ou des sorties alignées bilingues fonctionne de manière fiable par rapport aux piles OCR traditionnelles.

Étape par étape : construction d'un pipeline d'analyse de documents#

Pour voir Hunyuan OCR en action, voici un flux simple de PDF vers JSON structuré :

Convertir les pages en images (par exemple, PNG à 300 DPI).
Pour chaque page, inviter Hunyuan OCR à analyser les sections, les en-têtes, les tableaux et les pieds de page.
Valider : s'assurer que chaque tableau a le même nombre de colonnes par ligne ; contraindre les dates à ISO.
Fusionner : combiner les résultats au niveau de la page ; refusionner les sections dans l'ordre de lecture.
Exporter : stocker le JSON final dans votre CMS ou votre entrepôt de données et conserver un hachage du fichier source.

Un seul modèle signifie moins de maux de tête d'intégration et moins de maintenance, l'un des plus grands avantages de Hunyuan OCR pour les petites et moyennes équipes.

Où essayer, télécharger et en savoir plus#

Démo en direct : Explorez Hunyuan OCR dans votre navigateur sur Hugging Face Spaces
- https://huggingface.co/spaces/tencent/HunyuanOCR
Poids du modèle : Téléchargez Hunyuan OCR depuis Hugging Face
- https://huggingface.co/tencent/HunyuanOCR
Code source et configuration : Référentiel complet avec des instructions, des invites et des détails d'évaluation
- GitHub (recherchez HunyuanOCR)
Rapport technique : Méthodes, ablations et stratégies RL
- https://arxiv.org/abs/2511.19575 (également inclus en tant que HunyuanOCR_Technical_Report.pdf dans le référentiel)

Conclusion : une mise à niveau OCR pratique pour les équipes créatives modernes#

Hunyuan OCR apporte l'OCR de bout en bout, la couverture multilingue et une grande précision dans un package compact de 1 milliard de paramètres que vous pouvez réellement déployer. Au lieu d'assembler la détection, la reconnaissance, l'analyse et la traduction, vous invitez un modèle à renvoyer exactement ce dont votre flux de travail a besoin : un JSON propre, des traductions alignées ou des sous-titres horodatés.

Pour les créateurs de contenu qui vivent dans des documents, des trames et des fichiers de conception, Hunyuan OCR permet :

Un délai d'exécution plus rapide avec moins d'outils
Des sorties plus propres et cohérentes avec le schéma
Un traitement multilingue fiable
Un déploiement simple via vLLM ou Transformers

Si vous attendiez un moteur OCR qui s'intègre à la production réelle tout en maintenant les frais généraux des développeurs à un niveau bas, Hunyuan OCR est le bon endroit pour commencer. Essayez la démo, chargez le modèle et voyez combien de temps vous pouvez récupérer cette semaine.