Dolphin v2: Una guía práctica para el análisis de imágenes de documentos de última generación para flujos de trabajo creativos

Resumen: Por qué Dolphin v2 es importante para los creadores de contenido#

Dolphin v2 es un modelo de análisis de imágenes de documentos de código abierto diseñado para convertir documentos visuales complejos, como archivos PDF escaneados, recibos, formularios, diapositivas, revistas y guiones gráficos, en salidas estructuradas y legibles por máquina. Para los creadores de contenido que habitualmente lidian con entradas desordenadas y tareas administrativas que consumen mucho tiempo, Dolphin v2 promete una ruta más rápida desde los archivos sin procesar hasta los activos útiles que puede editar, buscar y automatizar.

Ya sea que sea un creador de videos que extrae guiones de archivos PDF, un diseñador que analiza las pautas de marca y las hojas de estilo, un escritor que recopila referencias de libros escaneados o un actor de voz que organiza hojas de líneas de personajes, Dolphin v2 puede convertir imágenes de documentos no estructuradas en JSON, CSV, Markdown o texto sin formato limpios. Es de código abierto (licencia MIT), se desarrolla activamente y está disponible en GitHub en https://github.com/bytedance/Dolphin, con modelos alojados a través de la comunidad (consulte la documentación del proyecto para obtener enlaces de Hugging Face).

En esta guía, describiremos qué es Dolphin v2, qué hay de nuevo en comparación con la v1, cómo funciona, cómo instalarlo y usarlo, los errores comunes, las consideraciones de rendimiento y los casos de uso creativos prácticos, para que pueda incorporar Dolphin v2 a su flujo de trabajo diario con confianza.

¿Qué es Dolphin v2?#

De un vistazo:

Dolphin v2 es un modelo de análisis de imágenes de documentos que lee imágenes o archivos PDF y genera datos estructurados.
Se dirige a canalizaciones sin OCR o con OCR ligero, minimizando la dependencia de pasos de OCR frágiles.
Admite diversos tipos de documentos (formularios, facturas, tablas, gráficos, revistas de varias columnas, carteles).
Es adecuado tanto para la inferencia local rápida como para las implementaciones de servidor escalables.
Es de código abierto bajo la licencia MIT, lo que promueve el uso comercial y de investigación.
El código, los modelos, las demostraciones y la documentación se mantienen a través del repositorio oficial de GitHub: https://github.com/bytedance/Dolphin.

Dolphin v2 está diseñado para ser práctico, robusto y fácil de usar para los desarrolladores. Está destinado a reducir la fricción en torno a la comprensión de documentos y acelerar las tareas complejas de preproducción o postproducción, donde los creadores a menudo pasan horas transcribiendo, etiquetando y reorganizando contenido manualmente.

¿Qué hay de nuevo en Dolphin v2 vs. v1?#

Dolphin v2 se centra en las mejoras de la calidad de vida, la robustez en escenarios del mundo real y la facilidad de integración. Si bien los detalles exactos de la implementación evolucionan, los creadores pueden esperar estas mejoras clave:

Robustez para la captura en el mundo real:
- Mejor manejo de escaneos móviles sesgados, con poca luz o imperfectos.
- Tolerancia mejorada para anotaciones ruidosas, sellos y marcas de agua.
Mejor comprensión de la estructura:
- Análisis de diseño más preciso para publicaciones multilingües y de varias columnas.
- Manejo más sólido de tablas, gráficos y pares clave-valor comunes en formularios y facturas.
Soporte de documentos más largos:
- Mejora de la fragmentación, el conocimiento de la paginación y el contexto entre páginas.
- Unión más fluida de salidas estructuradas en archivos PDF de varias páginas.
Modos OCR-ligero/sin OCR:
- Reducción de la necesidad de un paso de OCR separado; cuando se usa OCR, Dolphin v2 admite motores de OCR enchufables como alternativas.
Salidas JSON-first:
- Esquema más limpio y consistente para automatizaciones descendentes en Notion, Airtable, complementos de Figma, hojas de cálculo o scripts NLE.
Implementación optimizada:
- Ejemplos de servidor/API más sencillos y un inicio en frío más rápido para el uso en producción.
- Exportación más fácil a formatos como CSV, Markdown y HTML.
Mejor experiencia para desarrolladores:
- Configuraciones más claras, cuadernos de muestra y canalizaciones de referencia.
- La licencia MIT facilita la adopción en canalizaciones comerciales.

En conjunto, estas mejoras hacen que Dolphin v2 sea más fácil de confiar, más rápido de adoptar y más eficaz para los flujos de trabajo centrados en el creador de todos los tamaños.

Cómo funciona Dolphin v2 (alto nivel)#

Si bien los módulos específicos y las recetas de entrenamiento están documentados en el repositorio, aquí hay una vista conceptual de cómo Dolphin v2 procesa los documentos:

Codificación visual:
- La imagen de la página de entrada (de un PDF o una captura de cámara) se normaliza y se introduce en una columna vertebral de visión para producir incrustaciones visuales enriquecidas que tienen en cuenta el diseño.
Decodificación de lenguaje y estructura:
- Un decodificador de texto (a menudo un transformador) genera tokens estructurados que representan el contenido del documento y los elementos de diseño (encabezados, párrafos, listas, tablas, celdas, pares clave-valor).
Generación guiada por esquema:
- Dolphin v2 está ajustado para producir salidas estructuradas, comúnmente JSON, siguiendo un esquema predecible que puede asignar a sus aplicaciones.
- Esto incluye las coordenadas de las celdas de la tabla, el orden de lectura, los encabezados de sección y la asociación entre las etiquetas y los valores en los formularios.
Integración opcional de OCR:
- Para idiomas específicos o imágenes de bajo contraste, un complemento de OCR puede mejorar la fidelidad del texto. Dolphin v2 es flexible: use el modo sin OCR para mayor velocidad y simplicidad, o el modo híbrido para mayor precisión en casos difíciles.
Post-procesamiento:
- Las salidas se estandarizan en formatos que sus herramientas de producción pueden consumir. Piense en CSV para hojas de cálculo, Markdown para documentos y wikis, o JSON para automatizaciones y API.

Para los creadores, el punto crucial es que Dolphin v2 tiene como objetivo minimizar la limpieza manual. Obtiene contenido estructurado listo para editar, alinear o publicar, sin reconstruir su canalización desde cero.

Requisitos del sistema y compatibilidad#

Dolphin v2 está diseñado para ejecutarse en configuraciones modernas de consumidor y estación de trabajo. Requisitos típicos:

SO: Linux o Windows (macOS para inferencia de CPU; la aceleración de GPU varía según el hardware)
Python: 3.8–3.11 (consulte el repositorio para conocer las versiones exactas)
Dependencias: PyTorch (las compilaciones de GPU requieren soporte de CUDA), OpenCV, Pillow y otras bibliotecas ML estándar
Hardware:
- La inferencia solo de CPU es posible para trabajos pequeños.
- Para el rendimiento en tiempo real o por lotes, se recomienda una sola GPU moderna (por ejemplo, 12–24 GB de VRAM).
- Las configuraciones de múltiples GPU pueden acelerar el procesamiento a gran escala en archivos PDF largos o archivos grandes.

Compatibilidad:

Los archivos PDF generalmente se dividen en imágenes por página; Dolphin v2 procesa estas imágenes de página (PNG/JPG).
Se integra bien con la automatización basada en Python, las API REST y las cadenas de herramientas creativas a través de JSON/CSV.
La licencia MIT facilita la conexión de Dolphin v2 a flujos de trabajo propietarios.

Consulte siempre https://github.com/bytedance/Dolphin para obtener los requisitos más precisos y actualizados.

Instalación y inicio rápido#

Dolphin v2 admite implementaciones locales y de servidor. Los pasos exactos pueden variar; lo siguiente refleja el flujo típico en el repositorio oficial.

Opción A: Desde la fuente

# 1) Clona el repositorio
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

# 2) (Recomendado) Crea un entorno limpio
# Usando Conda/Mamba como ejemplo:
conda create -n dolphinv2 python=3.10 -y
conda activate dolphinv2

# 3) Instala las dependencias (consulta el repositorio para ver el archivo de requisitos exacto)
pip install -r requirements.txt

# 4) (Opcional) Instala PyTorch habilitado para GPU según tu versión de CUDA:
# Visita https://pytorch.org/get-started/locally/ para obtener el comando correcto

# 5) Descarga los pesos del modelo como se documenta en el repositorio o la tarjeta del modelo
# por ejemplo, scripts/download_weights.sh (si se proporciona) o descarga manual

# 6) Ejecuta una demostración de inferencia rápida (comando de ejemplo: consulta el repositorio para obtener detalles)
python tools/infer.py \
  --image_path ./samples/invoice_01.jpg \
  --output ./outputs/invoice_01.json \
  --config ./configs/dolphin_v2.yaml \
  --weights ./weights/dolphin_v2.pth

Opción B: Usa el cuaderno proporcionado o la aplicación de demostración

El repositorio a menudo incluye un cuaderno de Jupyter con ejemplos de extremo a extremo.
Algunas compilaciones de la comunidad publican Dolphin v2 en Hugging Face. Si hay una canalización preconstruida disponible, pruébela con su navegador o un cuaderno de Colab.

Fragmento de Python ilustrativo (solo patrón; consulte el repositorio para conocer las API exactas):

from pathlib import Path
from PIL import Image
import json

# Pseudocódigo: los nombres de API reales pueden diferir
# por ejemplo, dolphin.load_model(), dolphin.preprocess(), dolphin.postprocess()

# 1) Carga el modelo
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

# 2) Preprocesa una imagen
img = Image.open("samples/storyboard_page.jpg").convert("RGB")
batch = preprocess_for_dolphin_v2([img])

# 3) Inferencia
with torch.no_grad():
    raw_outputs = model(batch)

# 4) Post-procesa a JSON estructurado
result = postprocess_dolphin_v2(raw_outputs)[0]

# 5) Guarda e inspecciona
Path("outputs").mkdir(exist_ok=True)
with open("outputs/storyboard_page.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)

print("Claves extraídas:", list(result.keys()))

Consejo: Dolphin v2 normalmente devuelve elementos estructurados como párrafos, títulos, tablas con celdas o campos clave-valor para formularios. Puede convertirlos a CSV, Markdown o su esquema CMS.

Uso de Dolphin v2 en una API de producción#

Muchos equipos envuelven Dolphin v2 en un servicio REST ligero y lo llaman desde herramientas creativas, NLE o scripts de automatización. Un ejemplo mínimo de FastAPI (solo estructura; adáptelo a las funciones del repositorio):

from fastapi import FastAPI, UploadFile, File
from PIL import Image
import io, json

app = FastAPI()
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

@app.post("/parse")
async def parse_document(file: UploadFile = File(...)):
    content = await file.read()
    image = Image.open(io.BytesIO(content)).convert("RGB")
    batch = preprocess_for_dolphin_v2([image])
    with torch.no_grad():
        raw = model(batch)
    result = postprocess_dolphin_v2(raw)[0]
    return result  # FastAPI serializará dict->JSON

Implemente esto detrás de Nginx o un punto final de GPU sin servidor, y conéctelo a su sistema MAM/DAM, Hojas de cálculo de Google, Notion o su propia canalización.

Rendimiento y puntos de referencia#

El rendimiento depende de su GPU, la resolución de entrada y la complejidad del documento. En general:

Dolphin v2 tiene como objetivo ofrecer una mayor precisión que v1 en páginas de varias columnas, formularios, facturas y escaneos ruidosos.
La latencia por página puede ser casi en tiempo real en una sola GPU moderna, y el procesamiento por lotes acelera los archivos PDF de varias páginas.
Para obtener los mejores resultados, alinee la resolución de entrada con la configuración recomendada del modelo (consulte las configuraciones).

Comparaciones:

En comparación con el análisis tradicional basado en reglas + OCR, Dolphin v2 reduce la heurística frágil y la limpieza manual.
En comparación con las pilas de comprensión de documentos más antiguas, Dolphin v2 enfatiza el diseño, la fidelidad de la estructura y los esquemas consistentes.
Los informes de la comunidad indican resultados competitivos en comparación con los enfoques sin OCR de última generación en puntos de referencia comunes (por ejemplo, tareas de estilo FUNSD, SROIE, DocVQA). Para obtener números y gráficos exactos, consulte la sección de puntos de referencia y la tarjeta del modelo del repositorio.

Consejos de evaluación comparativa reproducibles:

Fije la resolución de entrada y el tamaño del lote.
Use un conjunto retenido de sus documentos reales (no solo conjuntos de datos públicos).
Mida tanto la precisión (fidelidad del texto, precisión de la estructura) como el costo (latencia, memoria de GPU).
Registre el tiempo de post-procesamiento; importa en producción.

Casos de uso en el mundo real para creadores#

Dolphin v2 brilla en los flujos de trabajo creativos cotidianos:

Creadores y editores de video:
- Extraiga guiones y listas de tomas de archivos PDF y cuadernos escaneados.
- Convierta los guiones gráficos en datos estructurados, lo que facilita la planificación de ediciones y el seguimiento de la continuidad.
- Genere automáticamente borradores de subtítulos a partir de presentaciones de diapositivas con notas del orador.
Diseñadores y directores de arte:
- Analice las pautas de marca en Markdown con capacidad de búsqueda y especificaciones de componentes.
- Extraiga paletas de colores, reglas de tipografía y especificaciones de cuadrícula de archivos PDF con estilo.
Escritores e investigadores:
- Convierta las referencias escaneadas en notas limpias y estructuradas con citas.
- Analice archivos PDF académicos de varias columnas en secciones mientras conserva el orden de lectura.
Actores de voz y productores de audio:
- Convierta las hojas de personajes, las hojas de llamadas y los lados en archivos CSV estandarizados para una búsqueda rápida.
- Extraiga guías de pronunciación y anotaciones en diccionarios estructurados.
Freelancers y estudios:
- Automatice el análisis de facturas y recibos para la contabilidad y la preparación de impuestos.
- Procese los NDA y los contratos en resúmenes clave-valor (contrapartes, fechas, montos).

En todos los casos, Dolphin v2 reduce el trabajo manual repetitivo y libera más tiempo para las decisiones creativas.

Patrones de integración y mejores prácticas#

JSON-first: Mantenga la salida de Dolphin v2 como JSON a través de su canalización. Convierta a CSV/Markdown solo en el paso final.
Humano en el bucle: para documentos críticos, agregue una interfaz de usuario de revisión rápida donde los editores puedan aprobar o corregir las salidas.
Plantillas y avisos: si el repositorio proporciona plantillas de esquema o avisos, estandarice en todo su equipo para que las salidas sean predecibles.
Reglas de post-procesamiento: agregue reglas ligeras para manejar casos extremos (por ejemplo, fusionar líneas divididas, corregir peculiaridades de reserva de OCR).
Anclaje de versión: ancle las versiones de configuración y pesos de Dolphin v2 en producción para evitar cambios inesperados durante las actualizaciones.
Almacenamiento: guarde tanto las imágenes sin procesar como las salidas JSON de Dolphin v2 para la trazabilidad y el reprocesamiento rápido.

Licencias, gobernanza y comunidad#

Licencia: Licencia MIT: permisiva, adecuada para uso comercial y de código abierto. Consulte LICENSE en https://github.com/bytedance/Dolphin.
Transparencia: consulte el archivo README, la tarjeta del modelo y los registros de cambios del repositorio para conocer las limitaciones actuales y el uso previsto.
Contribuciones: El proyecto agradece los problemas y las solicitudes de extracción. Abra tickets para errores, solicitudes de funciones o mejoras de documentos.
Comunidad: las discusiones y las preguntas y respuestas generalmente se realizan a través de GitHub Issues; busque enlaces a cualquier foro oficial o hilos de la comunidad de Hugging Face en el repositorio.

Al adoptar Dolphin v2 bajo MIT, los equipos pueden integrarlo de forma segura en canalizaciones y productos creativos propietarios.

Solución de problemas de Dolphin v2#

Problemas y soluciones comunes:

Falta de memoria (OOM) en la GPU:
- Reduzca la resolución de entrada o el tamaño del lote.
- Use precisión mixta (AMP) si es compatible.
- Cambie a CPU para trabajos más pequeños o use una GPU con más VRAM.
Dependencias no coincidentes:
- Asegúrese de que las versiones de PyTorch/CUDA coincidan con su controlador y sistema operativo.
- Vuelva a crear un entorno virtual limpio y vuelva a instalar los requisitos.
Orden de lectura incorrecto:
- Habilite o ajuste la configuración de reconocimiento de diseño en las configuraciones de Dolphin v2.
- Preprocese las entradas: corrija la inclinación, aumente el contraste, recorte los márgenes.
Errores de análisis de tablas:
- Aumente la resolución de la página para documentos con tablas densas.
- Verifique los umbrales de detección de tablas en el post-procesamiento.
Problemas de texto multilingüe:
- Pruebe el modo híbrido OCR para idiomas específicos.
- Actualice los paquetes de idiomas y asegúrese de que las fuentes estén disponibles para la representación.
Esquema JSON inconsistente entre versiones:
- Ancle su versión de Dolphin v2 en producción.
- Agregue un paso de conversión para normalizar los campos entre versiones.
Resultados deficientes en fotos de pantallas o papel brillante:
- Evite los reflejos; dispare con luz difusa.
- Use una aplicación de escaneo para mejorar el contraste y aplanar la perspectiva.

Si está atascado, busque problemas existentes o abra uno nuevo en https://github.com/bytedance/Dolphin con un ejemplo reproducible mínimo.

Consideraciones de seguridad y privacidad#

Procese los documentos confidenciales localmente cuando sea posible.
Si implementa Dolphin v2 como un servicio, asegure la API (autenticación, límites de velocidad, TLS).
Registre solo lo que necesita; evite almacenar documentos sin procesar cuando sea innecesario.
Las políticas de retención de documentos deben cumplir con los contratos y las regulaciones de sus clientes.

Consideraciones de hoja de ruta#

Si bien la hoja de ruta exacta evoluciona, espere mejoras continuas en:

Robustez multilingüe y manejo de documentos largos
Optimizaciones de velocidad/memoria
Mejor comprensión de tablas/gráficos y subtítulos de figuras
Herramientas para desarrolladores: demostraciones actualizadas, anotadores de interfaz de usuario y arneses de evaluación comparativa

Vea el repositorio para ver lanzamientos, etiquetas y entradas de registro de cambios relacionados con Dolphin v2.

Llamada a la acción#

Explore el código y la documentación: https://github.com/bytedance/Dolphin
Pruebe una muestra: ejecute Dolphin v2 en algunas páginas de su propio flujo de trabajo y mida el ahorro de tiempo.
Comparta comentarios: abra problemas, proponga funciones y contribuya con ejemplos que ayuden a otros creadores.
Integre: envuelva Dolphin v2 en una pequeña API y conéctelo a su canalización de contenido esta semana.

Dolphin v2 tiene como objetivo hacer que la comprensión de documentos se sienta como un bloque de construcción nativo para los equipos creativos. Comience poco a poco, itere rápido y deje que las salidas estructuradas hagan el trabajo pesado mientras usted se concentra en la artesanía.

Preguntas frecuentes#

¿Dolphin v2 se ha lanzado oficialmente y es de código abierto?#

Sí. Dolphin v2 está disponible en el repositorio oficial en https://github.com/bytedance/Dolphin y es de código abierto bajo la licencia MIT. Consulte los lanzamientos y las etiquetas del repositorio para obtener la última versión.

¿Cuál es la principal diferencia entre Dolphin v1 y Dolphin v2?#

Dolphin v2 mejora la robustez en el mundo real, la consistencia de la salida estructurada, la comprensión de tablas/formularios y la facilidad de implementación. También enfatiza un manejo más fluido de varias páginas y canalizaciones JSON-first adecuadas para la automatización creativa.

¿Puedo usar Dolphin v2 sin una GPU?#

Sí, para cargas de trabajo pequeñas. La inferencia de la CPU es posible pero más lenta. Para el rendimiento de producción o los archivos PDF grandes, se recomienda una GPU moderna. Dolphin v2 se beneficia significativamente de la aceleración de la GPU.

¿Dolphin v2 requiere OCR?#

No estrictamente. Dolphin v2 admite modos sin OCR y puede integrar OCR como alternativa. Para casos difíciles (bajo contraste, scripts raros), una configuración híbrida puede mejorar la precisión.

¿Cómo instalo Dolphin v2?#

Clone el repositorio, cree un entorno Python limpio, instale los requisitos, descargue los pesos del modelo y ejecute el script de inferencia de muestra. Los pasos y comandos exactos están documentados en el repositorio de Dolphin v2.

¿Qué formatos de archivo puede generar Dolphin v2?#

Dolphin v2 normalmente genera JSON estructurado, que se puede convertir a CSV, Markdown o HTML. Muchos equipos conservan JSON durante el procesamiento y solo convierten al final.

¿Dolphin v2 es adecuado para uso comercial?#

Sí. Dolphin v2 se publica bajo la licencia MIT, que es permisiva y amigable para la adopción comercial. Revise el archivo LICENSE en el repositorio para obtener más detalles.

¿Cómo se compara Dolphin v2 con las alternativas?#

Dolphin v2 tiene como objetivo ser robusto y práctico para flujos de trabajo creativos del mundo real. En comparación con las pilas de OCR más reglas, reduce la heurística frágil. En comparación con los analizadores de documentos modernos, Dolphin v2 es competitivo y, a menudo, más fácil de integrar. Evalúe en sus propios documentos para una comparación justa.

¿Dónde puedo obtener soporte para Dolphin v2?#

Use GitHub Issues en el repositorio oficial para informes de errores, preguntas y solicitudes de funciones. El repositorio también puede vincular a una tarjeta de modelo de Hugging Face o hilos de la comunidad.

¿Cuáles son las mejores prácticas para implementar Dolphin v2 en producción?#

Ancle las versiones, ejecute un paso de revisión para los documentos críticos, registre las métricas de rendimiento y asegure su API. Comience con un pequeño servicio que devuelva JSON y escale a medida que crezcan sus necesidades de rendimiento.