Dolphin v2 : Un guide pratique de l'analyse d'images de documents de nouvelle génération pour les flux de travail créatifs

Aperçu : Pourquoi Dolphin v2 est important pour les créateurs de contenu#

Dolphin v2 est un modèle d'analyse d'images de documents open source conçu pour convertir des documents visuels complexes (tels que des PDF numérisés, des reçus, des formulaires, des diapositives, des magazines et des storyboards) en sorties structurées et lisibles par machine. Pour les créateurs de contenu qui luttent régulièrement avec des entrées désordonnées et des tâches administratives chronophages, Dolphin v2 promet un chemin plus rapide des fichiers bruts aux actifs utiles que vous pouvez modifier, rechercher et automatiser.

Que vous soyez un créateur de vidéos extrayant des scripts de PDF, un concepteur analysant des directives de marque et des feuilles de style, un écrivain compilant des références à partir de livres numérisés ou un acteur vocal organisant des feuilles de lignes de personnages, Dolphin v2 peut transformer des images de documents non structurées en JSON, CSV, Markdown ou texte brut propres. Il est open source (licence MIT), activement développé et disponible sur GitHub à l'adresse https://github.com/bytedance/Dolphin, avec des modèles hébergés via la communauté (consultez la documentation du projet pour les liens Hugging Face).

Dans ce guide, nous allons décrire ce qu'est Dolphin v2, les nouveautés par rapport à la v1, comment il fonctionne, comment l'installer et l'utiliser, les pièges courants, les considérations de performance et les cas d'utilisation créatifs pratiques, afin que vous puissiez intégrer Dolphin v2 dans votre flux de travail quotidien en toute confiance.

Qu'est-ce que Dolphin v2 ?#

En bref :

Dolphin v2 est un modèle d'analyse d'images de documents qui lit des images ou des PDF et produit des données structurées.
Il cible les pipelines sans OCR ou avec OCR léger, minimisant la dépendance aux étapes OCR fragiles.
Il prend en charge divers types de documents (formulaires, factures, tableaux, graphiques, magazines à plusieurs colonnes, affiches).
Il convient à la fois à l'inférence locale rapide et aux déploiements de serveurs évolutifs.
Il est open source sous la licence MIT, ce qui favorise l'utilisation commerciale et la recherche.
Le code, les modèles, les démos et la documentation sont maintenus via le référentiel GitHub officiel : https://github.com/bytedance/Dolphin.

Dolphin v2 est conçu pour être pratique, robuste et convivial pour les développeurs. Il est destiné à réduire les frictions autour de la compréhension des documents et à accélérer les tâches complexes de pré-production ou de post-production, où les créateurs passent souvent des heures à transcrire, étiqueter et réorganiser manuellement le contenu.

Quoi de neuf dans Dolphin v2 par rapport à la v1#

Dolphin v2 se concentre sur les améliorations de la qualité de vie, la robustesse dans les scénarios du monde réel et la facilité d'intégration. Bien que les détails exacts de la mise en œuvre évoluent, les créateurs peuvent s'attendre à ces améliorations clés :

Robustesse à la capture du monde réel :
- Meilleure gestion des numérisations mobiles biaisées, à faible luminosité ou imparfaites.
- Tolérance améliorée pour les annotations bruyantes, les tampons et les filigranes.
Meilleure compréhension de la structure :
- Analyse de la mise en page plus précise pour les publications multilingues à plusieurs colonnes.
- Gestion plus forte des tableaux, des graphiques et des paires clé-valeur courantes dans les formulaires et les factures.
Prise en charge des documents plus longs :
- Amélioration du découpage, de la reconnaissance de la pagination et du contexte inter-pages.
- Couture plus fluide des sorties structurées sur les PDF de plusieurs pages.
Modes OCR léger/sans OCR :
- Besoin réduit d'une étape OCR distincte ; lorsque l'OCR est utilisé, Dolphin v2 prend en charge les moteurs OCR enfichables comme solutions de repli.
Sorties JSON en premier :
- Schéma plus propre et cohérent pour les automatisations en aval dans Notion, Airtable, les plugins Figma, les feuilles de calcul ou les scripts NLE.
Déploiement simplifié :
- Exemples de serveur/API plus simples et démarrage à froid plus rapide pour une utilisation en production.
- Exportation plus facile vers des formats tels que CSV, Markdown et HTML.
Meilleure expérience développeur :
- Configurations plus claires, exemples de notebooks et pipelines de référence.
- La licence MIT facilite l'adoption dans les pipelines commerciaux.

Ensemble, ces améliorations rendent Dolphin v2 plus facile à utiliser, plus rapide à adopter et plus efficace pour les flux de travail centrés sur le créateur de toutes tailles.

Comment fonctionne Dolphin v2 (vue d'ensemble)#

Bien que les modules spécifiques et les recettes de formation soient documentés dans le référentiel, voici une vue conceptuelle de la façon dont Dolphin v2 traite les documents :

Encodage visuel :
- L'image de la page d'entrée (à partir d'un PDF ou d'une capture de caméra) est normalisée et introduite dans un backbone de vision pour produire des incorporations visuelles riches qui tiennent compte de la mise en page.
Décodage de la langue et de la structure :
- Un décodeur de texte (souvent un transformateur) génère des jetons structurés représentant le contenu du document et les éléments de mise en page (en-têtes, paragraphes, listes, tableaux, cellules, paires clé-valeur).
Génération guidée par le schéma :
- Dolphin v2 est réglé pour produire des sorties structurées, généralement JSON, suivant un schéma prévisible que vous pouvez mapper à vos applications.
- Cela inclut les coordonnées des cellules de tableau, l'ordre de lecture, les en-têtes de section et l'association entre les étiquettes et les valeurs dans les formulaires.
Intégration OCR facultative :
- Pour des langues spécifiques ou des images à faible contraste, un plug-in OCR peut améliorer la fidélité du texte. Dolphin v2 est flexible : utilisez le mode sans OCR pour la vitesse et la simplicité, ou le mode hybride pour la précision dans les cas difficiles.
Post-traitement :
- Les sorties sont normalisées dans des formats que vos outils de production peuvent consommer. Pensez à CSV pour les feuilles de calcul, Markdown pour les documents et les wikis, ou JSON pour les automatisations et les API.

Pour les créateurs, le point crucial est que Dolphin v2 vise à minimiser le nettoyage manuel. Vous obtenez un contenu structuré prêt à être modifié, aligné ou publié, sans reconstruire votre pipeline à partir de zéro.

Configuration système requise et compatibilité#

Dolphin v2 est conçu pour fonctionner sur les configurations modernes de consommateurs et de stations de travail. Exigences typiques :

OS : Linux ou Windows (macOS pour l'inférence CPU ; l'accélération GPU varie selon le matériel)
Python : 3.8–3.11 (vérifiez le référentiel pour les versions exactes)
Dépendances : PyTorch (les builds GPU nécessitent la prise en charge de CUDA), OpenCV, Pillow et d'autres bibliothèques ML standard
Matériel :
- L'inférence CPU uniquement est possible pour les petits travaux.
- Pour le débit en temps réel ou par lots, un seul GPU moderne (par exemple, 12–24 Go de VRAM) est recommandé.
- Les configurations multi-GPU peuvent accélérer le traitement à grande échelle sur de longs PDF ou de grandes archives.

Compatibilité :

Les PDF sont généralement divisés en images par page ; Dolphin v2 traite ces images de page (PNG/JPG).
S'intègre bien avec l'automatisation basée sur Python, les API REST et les chaînes d'outils créatifs via JSON/CSV.
La licence MIT facilite l'intégration de Dolphin v2 dans les flux de travail propriétaires.

Consultez toujours https://github.com/bytedance/Dolphin pour les exigences les plus précises et les plus récentes.

Installation et démarrage rapide#

Dolphin v2 prend en charge les déploiements locaux et serveur. Les étapes exactes peuvent varier ; ce qui suit reflète le flux typique dans le référentiel officiel.

Option A : À partir de la source

# 1) Cloner le référentiel
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

# 2) (Recommandé) Créer un environnement propre
# En utilisant Conda/Mamba comme exemple :
conda create -n dolphinv2 python=3.10 -y
conda activate dolphinv2

# 3) Installer les dépendances (voir le référentiel pour le fichier d'exigences exact)
pip install -r requirements.txt

# 4) (Facultatif) Installer PyTorch compatible GPU en fonction de votre version CUDA :
# Visitez https://pytorch.org/get-started/locally/ pour la bonne commande

# 5) Télécharger les poids du modèle comme documenté dans le référentiel ou la carte du modèle
# par exemple, scripts/download_weights.sh (si fourni) ou téléchargement manuel

# 6) Exécuter une démo d'inférence rapide (exemple de commande - vérifiez le référentiel pour les spécificités)
python tools/infer.py \
  --image_path ./samples/invoice_01.jpg \
  --output ./outputs/invoice_01.json \
  --config ./configs/dolphin_v2.yaml \
  --weights ./weights/dolphin_v2.pth

Option B : Utiliser le notebook fourni ou l'application de démonstration

Le référentiel comprend souvent un notebook Jupyter avec des exemples de bout en bout.
Certaines versions communautaires publient Dolphin v2 sur Hugging Face. Si un pipeline préconstruit est disponible, essayez-le avec votre navigateur ou un notebook Colab.

Extrait de code Python illustratif (modèle uniquement - reportez-vous au référentiel pour les API exactes) :

from pathlib import Path
from PIL import Image
import json

# Pseudocode : les noms d'API réels peuvent différer
# par exemple, dolphin.load_model(), dolphin.preprocess(), dolphin.postprocess()

# 1) Charger le modèle
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

# 2) Prétraiter une image
img = Image.open("samples/storyboard_page.jpg").convert("RGB")
batch = preprocess_for_dolphin_v2([img])

# 3) Inférence
with torch.no_grad():
    raw_outputs = model(batch)

# 4) Post-traiter en JSON structuré
result = postprocess_dolphin_v2(raw_outputs)[0]

# 5) Enregistrer et inspecter
Path("outputs").mkdir(exist_ok=True)
with open("outputs/storyboard_page.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)

print("Clés extraites :", list(result.keys()))

Conseil : Dolphin v2 renvoie généralement des éléments structurés tels que des paragraphes, des titres, des tableaux avec des cellules ou des champs clé-valeur pour les formulaires. Vous pouvez les convertir en CSV, Markdown ou votre schéma CMS.

Utilisation de Dolphin v2 dans une API de production#

De nombreuses équipes encapsulent Dolphin v2 dans un service REST léger et l'appellent à partir d'outils de création, de NLE ou de scripts d'automatisation. Un exemple minimal de FastAPI (structure uniquement ; adaptez-vous aux fonctions du référentiel) :

from fastapi import FastAPI, UploadFile, File
from PIL import Image
import io, json

app = FastAPI()
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

@app.post("/parse")
async def parse_document(file: UploadFile = File(...)):
    content = await file.read()
    image = Image.open(io.BytesIO(content)).convert("RGB")
    batch = preprocess_for_dolphin_v2([image])
    with torch.no_grad():
        raw = model(batch)
    result = postprocess_dolphin_v2(raw)[0]
    return result  # FastAPI sérialisera dict->JSON

Déployez ceci derrière Nginx ou un point de terminaison GPU sans serveur, et connectez-le à votre système MAM/DAM, Google Sheets, Notion ou votre propre pipeline.

Performances et benchmarks#

Les performances dépendent de votre GPU, de la résolution d'entrée et de la complexité du document. En général :

Dolphin v2 vise à offrir une plus grande précision que la v1 sur les pages à plusieurs colonnes, les formulaires, les factures et les numérisations bruyantes.
La latence par page peut être proche du temps réel sur un seul GPU moderne, le traitement par lots accélérant les PDF de plusieurs pages.
Pour de meilleurs résultats, alignez la résolution d'entrée avec les paramètres recommandés du modèle (voir les configurations).

Comparaisons :

Par rapport à l'OCR traditionnel + l'analyse basée sur des règles, Dolphin v2 réduit les heuristiques fragiles et le nettoyage manuel.
Par rapport aux anciennes piles de compréhension de documents, Dolphin v2 met l'accent sur la mise en page, la fidélité de la structure et les schémas cohérents.
Les rapports de la communauté indiquent des résultats compétitifs par rapport aux approches sans OCR de pointe sur les benchmarks courants (par exemple, FUNSD, SROIE, tâches de style DocVQA). Pour les chiffres et les graphiques exacts, consultez la section des benchmarks du référentiel et la carte du modèle.

Conseils de benchmarking reproductibles :

Fixez la résolution d'entrée et la taille du lot.
Utilisez un ensemble de vos documents réels (pas seulement des ensembles de données publics).
Mesurez à la fois la précision (fidélité du texte, précision de la structure) et le coût (latence, mémoire GPU).
Enregistrez le temps de post-traitement ; c'est important en production.

Cas d'utilisation réels pour les créateurs#

Dolphin v2 brille dans les flux de travail créatifs quotidiens :

Créateurs et éditeurs de vidéos :
- Extraire des scripts et des listes de plans à partir de PDF et de cahiers numérisés.
- Convertir les storyboards en données structurées, ce qui facilite la planification des modifications et le suivi de la continuité.
- Générer automatiquement des brouillons de sous-titres à partir de présentations de diapositives avec des notes de l'orateur.
Concepteurs et directeurs artistiques :
- Analyser les directives de marque en Markdown consultable et en spécifications de composants.
- Extraire les palettes de couleurs, les règles de typographie et les spécifications de grille à partir de PDF stylisés.
Écrivains et chercheurs :
- Convertir les références numérisées en notes propres et structurées avec des citations et des extraits.
- Analyser les PDF académiques à plusieurs colonnes en sections tout en préservant l'ordre de lecture.
Acteurs vocaux et producteurs audio :
- Transformer les feuilles de personnages, les feuilles d'appel et les côtés en CSV normalisés pour une recherche rapide.
- Extraire les guides de prononciation et les annotations dans des dictionnaires structurés.
Indépendants et studios :
- Automatiser l'analyse des factures et des reçus pour la comptabilité et la préparation des impôts.
- Traiter les accords de confidentialité et les contrats en résumés clé-valeur (contreparties, dates, montants).

Dans tous les cas, Dolphin v2 réduit le travail manuel répétitif et libère plus de temps pour les décisions créatives.

Modèles d'intégration et meilleures pratiques#

JSON en premier : Conservez la sortie Dolphin v2 au format JSON tout au long de votre pipeline. Convertissez en CSV/Markdown uniquement à la dernière étape.
Humain dans la boucle : Pour les documents critiques, ajoutez une interface utilisateur de révision rapide où les éditeurs peuvent approuver ou corriger les sorties.
Modèles et invites : Si le référentiel fournit des modèles de schéma ou des invites, normalisez-les dans toute votre équipe afin que les sorties soient prévisibles.
Règles de post-traitement : Ajoutez des règles légères pour gérer les cas extrêmes (par exemple, fusionner les lignes divisées, corriger les bizarreries de repli OCR).
Épinglage de version : Épinglez les poids Dolphin v2 et les versions de configuration en production pour éviter les modifications inattendues lors des mises à jour.
Stockage : Enregistrez à la fois les images brutes et les sorties JSON de Dolphin v2 pour la traçabilité et le retraitement rapide.

Licence, gouvernance et communauté#

Licence : Licence MIT - permissive, adaptée à une utilisation commerciale et open source. Voir LICENSE dans https://github.com/bytedance/Dolphin.
Transparence : Consultez le fichier README du référentiel, la carte du modèle et les journaux des modifications pour connaître les limitations actuelles et l'utilisation prévue.
Contributions : Le projet accueille les problèmes et les demandes d'extraction. Ouvrez des tickets pour les bogues, les demandes de fonctionnalités ou les améliorations de la documentation.
Communauté : Les discussions et les questions-réponses se déroulent généralement via les problèmes GitHub ; recherchez les liens vers tout forum officiel ou fil de discussion de la communauté Hugging Face dans le référentiel.

En adoptant Dolphin v2 sous MIT, les équipes peuvent l'intégrer en toute sécurité dans les pipelines et produits créatifs propriétaires.

Dépannage de Dolphin v2#

Problèmes courants et correctifs :

Mémoire insuffisante (OOM) sur le GPU :
- Réduisez la résolution d'entrée ou la taille du lot.
- Utilisez une précision mixte (AMP) si elle est prise en charge.
- Passez au CPU pour les petits travaux ou utilisez un GPU avec plus de VRAM.
Dépendances incompatibles :
- Assurez-vous que les versions PyTorch/CUDA correspondent à votre pilote et à votre système d'exploitation.
- Recréez un environnement virtuel propre et réinstallez les exigences.
Ordre de lecture incorrect :
- Activez ou réglez les paramètres de prise en compte de la mise en page dans les configurations Dolphin v2.
- Prétraitez les entrées : désinclinez, augmentez le contraste, rognez les marges.
Erreurs d'analyse de tableau :
- Augmentez la résolution de la page pour les documents avec des tableaux denses.
- Vérifiez les seuils de détection de tableau lors du post-traitement.
Problèmes de texte multilingue :
- Essayez le mode hybride OCR pour des langues spécifiques.
- Mettez à jour les packs de langues et assurez-vous que les polices sont disponibles pour le rendu.
Schéma JSON incohérent entre les versions :
- Épinglez votre version Dolphin v2 en production.
- Ajoutez une étape de conversion pour normaliser les champs entre les versions.
Mauvais résultats sur les photos d'écrans ou de papier glacé :
- Évitez les reflets ; photographiez en lumière diffuse.
- Utilisez une application de numérisation pour améliorer le contraste et aplatir la perspective.

Si vous êtes bloqué, recherchez les problèmes existants ou ouvrez-en un nouveau sur https://github.com/bytedance/Dolphin avec un exemple minimal reproductible.

Considérations relatives à la sécurité et à la confidentialité#

Traitez les documents sensibles localement lorsque cela est possible.
Si vous déployez Dolphin v2 en tant que service, sécurisez l'API (authentification, limites de débit, TLS).
Enregistrez uniquement ce dont vous avez besoin ; évitez de stocker des documents bruts lorsque cela n'est pas nécessaire.
Les politiques de conservation des documents doivent être conformes aux contrats et réglementations de vos clients.

Considérations relatives à la feuille de route#

Bien que la feuille de route exacte évolue, attendez-vous à des améliorations continues dans :

Robustesse multilingue et gestion des documents longs
Optimisations de la vitesse/mémoire
Meilleure compréhension des tableaux/graphiques et légende des figures
Outils de développement : démos mises à niveau, annotateurs d'interface utilisateur et harnais de benchmarking

Surveillez le référentiel pour les versions, les balises et les entrées du journal des modifications relatives à Dolphin v2.

Appel à l'action#

Explorez le code et la documentation : https://github.com/bytedance/Dolphin
Essayez un échantillon : exécutez Dolphin v2 sur quelques pages de votre propre flux de travail et mesurez les gains de temps.
Partagez vos commentaires : ouvrez des problèmes, proposez des fonctionnalités et contribuez des exemples qui aident les autres créateurs.
Intégrez : encapsulez Dolphin v2 dans une petite API et intégrez-la à votre pipeline de contenu cette semaine.

Dolphin v2 vise à faire en sorte que la compréhension des documents ressemble à un élément constitutif natif pour les équipes créatives. Commencez petit, itérez rapidement et laissez les sorties structurées faire le gros du travail pendant que vous vous concentrez sur l'artisanat.

FAQ#

Dolphin v2 est-il officiellement publié et open source ?#

Oui. Dolphin v2 est disponible dans le référentiel officiel à l'adresse https://github.com/bytedance/Dolphin et est open source sous la licence MIT. Consultez les versions et les balises du référentiel pour la dernière version.

Quelle est la principale différence entre Dolphin v1 et Dolphin v2 ?#

Dolphin v2 améliore la robustesse du monde réel, la cohérence de la sortie structurée, la compréhension des tableaux/formulaires et la facilité de déploiement. Il met également l'accent sur une gestion multipage plus fluide et des pipelines JSON en premier adaptés à l'automatisation créative.

Puis-je utiliser Dolphin v2 sans GPU ?#

Oui, pour les petites charges de travail. L'inférence CPU est possible mais plus lente. Pour le débit de production ou les PDF volumineux, un GPU moderne est recommandé. Dolphin v2 bénéficie considérablement de l'accélération GPU.

Dolphin v2 nécessite-t-il l'OCR ?#

Pas strictement. Dolphin v2 prend en charge les modes sans OCR et peut intégrer l'OCR comme solution de repli. Pour les cas difficiles (faible contraste, scripts rares), une configuration hybride peut améliorer la précision.

Comment installer Dolphin v2 ?#

Clonez le référentiel, créez un environnement Python propre, installez les exigences, téléchargez les poids du modèle et exécutez le script d'inférence d'exemple. Les étapes et les commandes exactes sont documentées dans le référentiel Dolphin v2.

Quels formats de fichiers Dolphin v2 peut-il produire ?#

Dolphin v2 produit généralement du JSON structuré, qui peut être converti en CSV, Markdown ou HTML. De nombreuses équipes conservent le JSON pendant le traitement et ne convertissent qu'à la fin.

Dolphin v2 convient-il à un usage commercial ?#

Oui. Dolphin v2 est publié sous la licence MIT, qui est permissive et conviviale pour l'adoption commerciale. Consultez le fichier LICENSE dans le référentiel pour plus de détails.

Comment Dolphin v2 se compare-t-il aux alternatives ?#

Dolphin v2 vise à être robuste et pratique pour les flux de travail créatifs réels. Comparé aux piles OCR plus règles, il réduit les heuristiques fragiles. Par rapport aux analyseurs de documents modernes, Dolphin v2 est compétitif et souvent plus facile à intégrer. Évaluez sur vos propres documents pour une comparaison équitable.

Où puis-je obtenir de l'aide pour Dolphin v2 ?#

Utilisez les problèmes GitHub dans le référentiel officiel pour les rapports de bogues, les questions et les demandes de fonctionnalités. Le référentiel peut également renvoyer à une carte de modèle Hugging Face ou à des fils de discussion de la communauté.

Quelles sont les meilleures pratiques pour le déploiement de Dolphin v2 en production ?#

Épinglez les versions, exécutez une étape de révision pour les documents critiques, enregistrez les mesures de performance et sécurisez votre API. Commencez par un petit service qui renvoie du JSON et évoluez au fur et à mesure que vos besoins de débit augmentent.