Dolphin v2: คู่มือเชิงปฏิบัติสำหรับการแยกวิเคราะห์ภาพเอกสารยุคถัดไปสำหรับขั้นตอนการทำงานสร้างสรรค์

ภาพรวม: ทำไม Dolphin v2 ถึงสำคัญสำหรับผู้สร้างสรรค์คอนเทนต์#

Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารโอเพนซอร์สที่ออกแบบมาเพื่อแปลงเอกสารภาพที่ซับซ้อน เช่น PDF ที่สแกน ใบเสร็จ แบบฟอร์ม สไลด์ นิตยสาร และสตอรีบอร์ด ให้เป็นเอาต์พุตที่มีโครงสร้างและเครื่องอ่านได้ สำหรับผู้สร้างสรรค์คอนเทนต์ที่ต้องเผชิญกับอินพุตที่ยุ่งเหยิงและงานธุรการที่กินเวลาเป็นประจำ Dolphin v2 สัญญาว่าจะช่วยให้คุณเข้าถึงเนื้อหาที่สามารถแก้ไข ค้นหา และทำให้เป็นอัตโนมัติได้จากไฟล์ดิบได้เร็วยิ่งขึ้น

ไม่ว่าคุณจะเป็นผู้สร้างวิดีโอที่ดึงสคริปต์จาก PDF นักออกแบบที่แยกวิเคราะห์แนวทางแบรนด์และชีตสไตล์ นักเขียนที่รวบรวมข้อมูลอ้างอิงจากหนังสือที่สแกน หรือนักพากย์ที่จัดระเบียบชีตบทสนทนาของตัวละคร Dolphin v2 สามารถเปลี่ยนภาพเอกสารที่ไม่มีโครงสร้างให้เป็น JSON, CSV, Markdown หรือข้อความธรรมดาที่สะอาดตาได้ เป็นโอเพนซอร์ส (MIT License) มีการพัฒนาอย่างต่อเนื่อง และพร้อมใช้งานบน GitHub ที่ https://github.com/bytedance/Dolphin โดยมีโมเดลที่โฮสต์ผ่านชุมชน (ดูเอกสารประกอบโปรเจกต์สำหรับลิงก์ Hugging Face)

ในคู่มือนี้ เราจะสรุปว่า Dolphin v2 คืออะไร อะไรคือสิ่งใหม่เมื่อเทียบกับ v1 ทำงานอย่างไร วิธีการติดตั้งและใช้งาน ข้อผิดพลาดทั่วไป ข้อควรพิจารณาด้านประสิทธิภาพ และกรณีการใช้งานสร้างสรรค์ที่เป็นประโยชน์ เพื่อให้คุณสามารถนำ Dolphin v2 มาใช้ในขั้นตอนการทำงานประจำวันของคุณได้อย่างมั่นใจ

Dolphin v2 คืออะไร#

โดยสรุป:

Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารที่อ่านภาพหรือ PDF และส่งออกข้อมูลที่มีโครงสร้าง
มุ่งเป้าไปที่ไปป์ไลน์ที่ไม่มี OCR หรือ OCR-light ลดการพึ่งพาขั้นตอน OCR ที่เปราะบาง
รองรับเอกสารประเภทต่างๆ (แบบฟอร์ม ใบแจ้งหนี้ ตาราง แผนภูมิ นิตยสารหลายคอลัมน์ โปสเตอร์)
เหมาะสำหรับการอนุมานในเครื่องอย่างรวดเร็วและการปรับใช้เซิร์ฟเวอร์ที่ปรับขนาดได้
เป็นโอเพนซอร์สภายใต้ MIT License ส่งเสริมการใช้งานเชิงพาณิชย์และการวิจัย
โค้ด โมเดล เดโม และเอกสารประกอบได้รับการดูแลผ่านทาง GitHub repository อย่างเป็นทางการ: https://github.com/bytedance/Dolphin

Dolphin v2 สร้างขึ้นเพื่อให้ใช้งานได้จริง แข็งแกร่ง และเป็นมิตรกับนักพัฒนา มีจุดมุ่งหมายเพื่อลดแรงเสียดทานในการทำความเข้าใจเอกสารและเร่งความเร็วของงานก่อนการผลิตหรือหลังการผลิตที่ซับซ้อน ซึ่งผู้สร้างสรรค์มักใช้เวลาหลายชั่วโมงในการถอดเสียง ติดแท็ก และจัดระเบียบเนื้อหาใหม่ด้วยตนเอง

สิ่งใหม่ใน Dolphin v2 เทียบกับ v1#

Dolphin v2 มุ่งเน้นไปที่การปรับปรุงคุณภาพชีวิต ความแข็งแกร่งในสถานการณ์จริง และความง่ายในการผสานรวม แม้ว่ารายละเอียดการใช้งานที่แน่นอนจะมีการพัฒนา แต่ผู้สร้างสรรค์สามารถคาดหวังการปรับปรุงที่สำคัญเหล่านี้ได้:

ความแข็งแกร่งในการจับภาพในโลกแห่งความเป็นจริง:
- จัดการการสแกนด้วยมือถือที่เอียง แสงน้อย หรือไม่สมบูรณ์ได้ดีขึ้น
- ปรับปรุงความทนทานต่อคำอธิบายประกอบที่มีสัญญาณรบกวน ตราประทับ และลายน้ำ
ความเข้าใจโครงสร้างที่ดีขึ้น:
- การแยกวิเคราะห์เลย์เอาต์ที่แม่นยำยิ่งขึ้นสำหรับสิ่งพิมพ์หลายคอลัมน์และหลายภาษา
- การจัดการตาราง แผนภูมิ และคู่คีย์-ค่าที่แข็งแกร่งยิ่งขึ้น ซึ่งพบได้บ่อยในแบบฟอร์มและใบแจ้งหนี้
การรองรับเอกสารที่ยาวขึ้น:
- การปรับปรุงการแบ่งส่วน การรับรู้การใส่เลขหน้า และบริบทข้ามหน้า
- การเย็บเอาต์พุตที่มีโครงสร้างที่ราบรื่นยิ่งขึ้นใน PDF หลายหน้า
โหมด OCR-light/OCR-free:
- ลดความจำเป็นในการใช้ขั้นตอน OCR แยกต่างหาก เมื่อใช้ OCR Dolphin v2 รองรับเอ็นจิน OCR แบบปลั๊กอินเป็นตัวสำรอง
เอาต์พุต JSON-first:
- สคีมาที่สะอาดและสอดคล้องกันมากขึ้นสำหรับการทำให้เป็นอัตโนมัติใน Notion, Airtable, ปลั๊กอิน Figma, สเปรดชีต หรือสคริปต์ NLE
การปรับใช้ที่คล่องตัว:
- ตัวอย่างเซิร์ฟเวอร์/API ที่ตรงไปตรงมายิ่งขึ้นและการเริ่มต้นแบบ cold-start ที่เร็วขึ้นสำหรับการใช้งานจริง
- การส่งออกไปยังรูปแบบต่างๆ เช่น CSV, Markdown และ HTML ได้ง่ายขึ้น
ประสบการณ์นักพัฒนาที่ดีขึ้น:
- การกำหนดค่าที่ชัดเจนยิ่งขึ้น สมุดบันทึกตัวอย่าง และไปป์ไลน์อ้างอิง
- MIT License ทำให้การนำไปใช้ในไปป์ไลน์เชิงพาณิชย์เป็นเรื่องง่าย

โดยรวมแล้ว การปรับปรุงเหล่านี้ทำให้ Dolphin v2 น่าเชื่อถือ ใช้งานได้เร็วขึ้น และมีประสิทธิภาพมากขึ้นสำหรับขั้นตอนการทำงานที่เน้นผู้สร้างสรรค์ทุกขนาด

Dolphin v2 ทำงานอย่างไร (ระดับสูง)#

แม้ว่าโมดูลเฉพาะและสูตรการฝึกอบรมจะมีการบันทึกไว้ใน repo แต่ต่อไปนี้เป็นมุมมองเชิงแนวคิดเกี่ยวกับวิธีที่ Dolphin v2 ประมวลผลเอกสาร:

การเข้ารหัสภาพ:
- ภาพหน้าอินพุต (จาก PDF หรือการจับภาพด้วยกล้อง) จะถูกทำให้เป็นมาตรฐานและป้อนเข้าสู่ vision backbone เพื่อสร้างการฝังภาพที่สมบูรณ์ซึ่งรับรู้ถึงเลย์เอาต์
การถอดรหัสภาษาและโครงสร้าง:
- ตัวถอดรหัสข้อความ (มักจะเป็น transformer) สร้างโทเค็นที่มีโครงสร้างซึ่งแสดงถึงเนื้อหาเอกสารและองค์ประกอบเลย์เอาต์ (ส่วนหัว ย่อหน้า รายการ ตาราง เซลล์ คู่คีย์-ค่า)
การสร้างที่นำโดยสคีมา:
- Dolphin v2 ได้รับการปรับแต่งเพื่อสร้างเอาต์พุตที่มีโครงสร้าง ซึ่งโดยทั่วไปคือ JSON ตามสคีมาที่คาดการณ์ได้ซึ่งคุณสามารถแมปกับแอปของคุณได้
- ซึ่งรวมถึงพิกัดเซลล์ตาราง ลำดับการอ่าน ส่วนหัว และความสัมพันธ์ระหว่างป้ายกำกับและค่าในแบบฟอร์ม
การผสานรวม OCR เสริม:
- สำหรับภาษาเฉพาะหรือภาพที่มีคอนทราสต์ต่ำ ปลั๊กอิน OCR อาจปรับปรุงความเที่ยงตรงของข้อความ Dolphin v2 มีความยืดหยุ่น: ใช้โหมด OCR-free เพื่อความเร็วและความเรียบง่าย หรือโหมดไฮบริดเพื่อความแม่นยำในกรณีที่ยาก
การประมวลผลภายหลัง:
- เอาต์พุตได้รับการทำให้เป็นมาตรฐานในรูปแบบที่เครื่องมือการผลิตของคุณสามารถใช้งานได้ ลองนึกถึง CSV สำหรับสเปรดชีต Markdown สำหรับเอกสารและวิกิ หรือ JSON สำหรับการทำให้เป็นอัตโนมัติและ API

สำหรับผู้สร้างสรรค์ ประเด็นสำคัญคือ Dolphin v2 มีเป้าหมายเพื่อลดการทำความสะอาดด้วยตนเอง คุณจะได้รับเนื้อหาที่มีโครงสร้างพร้อมที่จะแก้ไข จัดแนว หรือเผยแพร่ โดยไม่ต้องสร้างไปป์ไลน์ของคุณใหม่ตั้งแต่เริ่มต้น

ข้อกำหนดของระบบและความเข้ากันได้#

Dolphin v2 ได้รับการออกแบบมาให้ทำงานบนการตั้งค่าผู้บริโภคและเวิร์กสเตชันที่ทันสมัย ข้อกำหนดทั่วไป:

OS: Linux หรือ Windows (macOS สำหรับการอนุมาน CPU การเร่งความเร็ว GPU แตกต่างกันไปตามฮาร์ดแวร์)
Python: 3.8–3.11 (ตรวจสอบ repo สำหรับเวอร์ชันที่แน่นอน)
Dependencies: PyTorch (บิลด์ GPU ต้องรองรับ CUDA), OpenCV, Pillow และไลบรารี ML มาตรฐานอื่นๆ
Hardware:
- การอนุมาน CPU-only เป็นไปได้สำหรับงานขนาดเล็ก
- สำหรับปริมาณงานแบบเรียลไทม์หรือแบบแบตช์ ขอแนะนำให้ใช้ GPU ที่ทันสมัยเพียงตัวเดียว (เช่น 12–24 GB VRAM)
- การตั้งค่า Multi-GPU สามารถเร่งการประมวลผลขนาดใหญ่ใน PDF ที่ยาวหรือไฟล์เก็บถาวรขนาดใหญ่ได้

ความเข้ากันได้:

PDF มักจะถูกแบ่งออกเป็นภาพต่อหน้า Dolphin v2 ประมวลผลภาพหน้าเหล่านี้ (PNG/JPG)
ผสานรวมได้ดีกับการทำให้เป็นอัตโนมัติที่ใช้ Python, REST API และ toolchain สร้างสรรค์ผ่าน JSON/CSV
MIT License ทำให้ Dolphin v2 ง่ายต่อการเสียบเข้ากับขั้นตอนการทำงานที่เป็นกรรมสิทธิ์

โปรดดู https://github.com/bytedance/Dolphin เสมอสำหรับข้อกำหนดที่ถูกต้องและเป็นปัจจุบันที่สุด

การติดตั้งและการเริ่มต้นอย่างรวดเร็ว#

Dolphin v2 รองรับการปรับใช้ในเครื่องและเซิร์ฟเวอร์ ขั้นตอนที่แน่นอนอาจแตกต่างกันไป สิ่งต่อไปนี้สะท้อนถึงโฟลว์ทั่วไปใน repo อย่างเป็นทางการ

ตัวเลือก A: จากซอร์ส

# 1) โคลน repository
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

# 2) (แนะนำ) สร้างสภาพแวดล้อมที่สะอาด
# ใช้ Conda/Mamba เป็นตัวอย่าง:
conda create -n dolphinv2 python=3.10 -y
conda activate dolphinv2

# 3) ติดตั้ง dependencies (ดู repo สำหรับไฟล์ข้อกำหนดที่แน่นอน)
pip install -r requirements.txt

# 4) (เสริม) ติดตั้ง PyTorch ที่เปิดใช้งาน GPU ตามเวอร์ชัน CUDA ของคุณ:
# เยี่ยมชม https://pytorch.org/get-started/locally/ สำหรับคำสั่งที่ถูกต้อง

# 5) ดาวน์โหลดน้ำหนักโมเดลตามที่ระบุไว้ใน repo หรือ model card
# เช่น scripts/download_weights.sh (ถ้ามี) หรือดาวน์โหลดด้วยตนเอง

# 6) เรียกใช้เดโมการอนุมานอย่างรวดเร็ว (คำสั่งตัวอย่าง - ตรวจสอบ repo สำหรับรายละเอียด)
python tools/infer.py \
  --image_path ./samples/invoice_01.jpg \
  --output ./outputs/invoice_01.json \
  --config ./configs/dolphin_v2.yaml \
  --weights ./weights/dolphin_v2.pth

ตัวเลือก B: ใช้สมุดบันทึกหรือแอปเดโมที่ให้มา

repository มักจะมี Jupyter notebook พร้อมตัวอย่างแบบ end-to-end
บิลด์ชุมชนบางส่วนเผยแพร่ Dolphin v2 บน Hugging Face หากมีไปป์ไลน์ที่สร้างไว้ล่วงหน้า ให้ลองใช้กับเบราว์เซอร์หรือ Colab notebook ของคุณ

ตัวอย่าง Python (รูปแบบเท่านั้น - อ้างอิงถึง repo สำหรับ API ที่แน่นอน):

from pathlib import Path
from PIL import Image
import json

# Pseudocode: ชื่อ API จริงอาจแตกต่างกัน
# เช่น dolphin.load_model(), dolphin.preprocess(), dolphin.postprocess()

# 1) โหลดโมเดล
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

# 2) ประมวลผลภาพล่วงหน้า
img = Image.open("samples/storyboard_page.jpg").convert("RGB")
batch = preprocess_for_dolphin_v2([img])

# 3) การอนุมาน
with torch.no_grad():
    raw_outputs = model(batch)

# 4) ประมวลผลภายหลังเป็น JSON ที่มีโครงสร้าง
result = postprocess_dolphin_v2(raw_outputs)[0]

# 5) บันทึกและตรวจสอบ
Path("outputs").mkdir(exist_ok=True)
with open("outputs/storyboard_page.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)

print("Extracted keys:", list(result.keys()))

เคล็ดลับ: โดยทั่วไป Dolphin v2 จะส่งคืนองค์ประกอบที่มีโครงสร้าง เช่น ย่อหน้า ชื่อ ตารางที่มีเซลล์ หรือฟิลด์คีย์-ค่าสำหรับแบบฟอร์ม คุณสามารถแปลงสิ่งเหล่านั้นเป็น CSV, Markdown หรือสคีมา CMS ของคุณได้

การใช้ Dolphin v2 ใน Production API#

หลายทีมห่อ Dolphin v2 ในบริการ REST ที่มีน้ำหนักเบาและเรียกใช้จากเครื่องมือสร้างสรรค์ NLE หรือสคริปต์อัตโนมัติ ตัวอย่าง FastAPI ขั้นต่ำ (โครงสร้างเท่านั้น ปรับให้เข้ากับฟังก์ชันของ repo):

from fastapi import FastAPI, UploadFile, File
from PIL import Image
import io, json

app = FastAPI()
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

@app.post("/parse")
async def parse_document(file: UploadFile = File(...)):
    content = await file.read()
    image = Image.open(io.BytesIO(content)).convert("RGB")
    batch = preprocess_for_dolphin_v2([image])
    with torch.no_grad():
        raw = model(batch)
    result = postprocess_dolphin_v2(raw)[0]
    return result  # FastAPI จะ serialize dict->JSON

ปรับใช้สิ่งนี้เบื้องหลัง Nginx หรือ endpoint GPU แบบ serverless และเชื่อมต่อกับระบบ MAM/DAM, Google Sheets, Notion หรือไปป์ไลน์ของคุณเอง

ประสิทธิภาพและเกณฑ์มาตรฐาน#

ประสิทธิภาพขึ้นอยู่กับ GPU ความละเอียดอินพุต และความซับซ้อนของเอกสาร โดยทั่วไป:

Dolphin v2 มีเป้าหมายที่จะให้ความแม่นยำสูงกว่า v1 ในหน้าหลายคอลัมน์ แบบฟอร์ม ใบแจ้งหนี้ และการสแกนที่มีสัญญาณรบกวน
เวลาแฝงต่อหน้าอาจใกล้เคียงกับเรียลไทม์บน GPU ที่ทันสมัยเพียงตัวเดียว โดยการประมวลผลแบบแบตช์จะเร่งความเร็ว PDF หลายหน้า
เพื่อผลลัพธ์ที่ดีที่สุด ให้ปรับความละเอียดอินพุตให้สอดคล้องกับการตั้งค่าที่แนะนำของโมเดล (ดูการกำหนดค่า)

การเปรียบเทียบ:

เมื่อเทียบกับการแยกวิเคราะห์ OCR + ตามกฎแบบเดิม Dolphin v2 จะลดฮิวริสติกที่เปราะบางและการทำความสะอาดด้วยตนเอง
เมื่อเทียบกับสแต็กความเข้าใจเอกสารรุ่นเก่า Dolphin v2 เน้นที่เลย์เอาต์ ความเที่ยงตรงของโครงสร้าง และสคีมาที่สอดคล้องกัน
รายงานของชุมชนระบุผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับแนวทาง OCR-free ที่ทันสมัยในเกณฑ์มาตรฐานทั่วไป (เช่น งานสไตล์ FUNSD, SROIE, DocVQA) สำหรับตัวเลขและแผนภูมิที่แน่นอน โปรดดูส่วนเกณฑ์มาตรฐานและ model card ของ repository

เคล็ดลับเกณฑ์มาตรฐานที่ทำซ้ำได้:

แก้ไขความละเอียดอินพุตและขนาดแบตช์
ใช้ชุดเอกสารจริงของคุณที่เก็บไว้ (ไม่ใช่แค่ชุดข้อมูลสาธารณะ)
วัดทั้งความแม่นยำ (ความเที่ยงตรงของข้อความ ความแม่นยำของโครงสร้าง) และต้นทุน (เวลาแฝง หน่วยความจำ GPU)
บันทึกเวลาการประมวลผลภายหลัง มีความสำคัญในการผลิต

กรณีการใช้งานจริงสำหรับผู้สร้างสรรค์#

Dolphin v2 โดดเด่นในขั้นตอนการทำงานสร้างสรรค์ในชีวิตประจำวัน:

ผู้สร้างและตัดต่อวิดีโอ:
- แยกสคริปต์และรายการช็อตจาก PDF และสมุดบันทึกที่สแกน
- แปลงสตอรีบอร์ดเป็นข้อมูลที่มีโครงสร้าง ทำให้ง่ายต่อการวางแผนการแก้ไขและติดตามความต่อเนื่อง
- สร้างฉบับร่างคำบรรยายโดยอัตโนมัติจากสไลด์พร้อมบันทึกของผู้พูด
นักออกแบบและผู้กำกับศิลป์:
- แยกวิเคราะห์แนวทางแบรนด์เป็น Markdown ที่ค้นหาได้และข้อกำหนดส่วนประกอบ
- แยกจานสี กฎการพิมพ์ และข้อกำหนดกริดจาก PDF ที่มีสไตล์
นักเขียนและนักวิจัย:
- แปลงข้อมูลอ้างอิงที่สแกนเป็นบันทึกที่สะอาดและมีโครงสร้างพร้อมการอ้างอิงและคำพูด
- แยกวิเคราะห์ PDF ทางวิชาการหลายคอลัมน์เป็นส่วนต่างๆ ในขณะที่ยังคงลำดับการอ่านไว้
นักพากย์และโปรดิวเซอร์เสียง:
- เปลี่ยนชีตตัวละคร ชีตการโทร และด้านต่างๆ ให้เป็น CSV ที่ได้มาตรฐานสำหรับการค้นหาอย่างรวดเร็ว
- แยกคู่มือการออกเสียงและคำอธิบายประกอบเป็นพจนานุกรมที่มีโครงสร้าง
ฟรีแลนซ์และสตูดิโอ:
- ทำให้การแยกวิเคราะห์ใบแจ้งหนี้และใบเสร็จเป็นอัตโนมัติสำหรับการทำบัญชีและการเตรียมภาษี
- ประมวลผล NDAs และสัญญาเป็นสรุปคีย์-ค่า (คู่สัญญา วันที่ จำนวนเงิน)

ในทุกกรณี Dolphin v2 จะลดงานที่ต้องทำซ้ำๆ ด้วยตนเองและเพิ่มเวลาสำหรับการตัดสินใจสร้างสรรค์

รูปแบบการผสานรวมและแนวทางปฏิบัติที่ดีที่สุด#

JSON-first: เก็บเอาต์พุต Dolphin v2 เป็น JSON ตลอดไปป์ไลน์ของคุณ แปลงเป็น CSV/Markdown เฉพาะในขั้นตอนสุดท้าย
Human-in-the-loop: สำหรับเอกสารที่สำคัญ ให้เพิ่ม UI การตรวจสอบอย่างรวดเร็วที่บรรณาธิการสามารถอนุมัติหรือแก้ไขเอาต์พุตได้
เทมเพลตและพรอมต์: หาก repo มีเทมเพลตสคีมาหรือพรอมต์ ให้ทำให้เป็นมาตรฐานในทีมของคุณเพื่อให้เอาต์พุตคาดการณ์ได้
กฎการประมวลผลภายหลัง: เพิ่มกฎแสงเพื่อจัดการกับกรณีพิเศษ (เช่น การรวมบรรทัดที่แยก การแก้ไขข้อผิดพลาดในการสำรอง OCR)
การปักหมุดเวอร์ชัน: ปักหมุดน้ำหนัก Dolphin v2 และเวอร์ชันการกำหนดค่าในการผลิตเพื่อหลีกเลี่ยงการเปลี่ยนแปลงที่ไม่คาดคิดระหว่างการอัปเดต
ที่เก็บข้อมูล: บันทึกทั้งภาพดิบและเอาต์พุต JSON ของ Dolphin v2 เพื่อการตรวจสอบย้อนกลับและการประมวลผลใหม่ที่รวดเร็ว

การออกใบอนุญาต การกำกับดูแล และชุมชน#

License: MIT License—อนุญาต เหมาะสำหรับการใช้งานเชิงพาณิชย์และโอเพนซอร์ส ดู LICENSE ใน https://github.com/bytedance/Dolphin
ความโปร่งใส: ตรวจสอบ README, model card และ changelog ของ repo สำหรับข้อจำกัดปัจจุบันและการใช้งานที่ตั้งใจไว้
การมีส่วนร่วม: โปรเจกต์ยินดีรับปัญหาและ pull request เปิดตั๋วสำหรับข้อบกพร่อง คำขอคุณสมบัติ หรือการปรับปรุงเอกสาร
ชุมชน: การสนทนาและถามตอบมักเกิดขึ้นผ่าน GitHub Issues มองหาลิงก์ไปยังฟอรัมอย่างเป็นทางการหรือเธรดชุมชน Hugging Face ใน repo

ด้วยการนำ Dolphin v2 มาใช้ภายใต้ MIT ทีมต่างๆ สามารถผสานรวมเข้ากับไปป์ไลน์และผลิตภัณฑ์สร้างสรรค์ที่เป็นกรรมสิทธิ์ได้อย่างปลอดภัย

การแก้ไขปัญหา Dolphin v2#

ปัญหาและการแก้ไขทั่วไป:

หน่วยความจำไม่พอ (OOM) บน GPU:
- ลดความละเอียดอินพุตหรือขนาดแบตช์
- ใช้ความแม่นยำแบบผสม (AMP) หากรองรับ
- สลับไปใช้ CPU สำหรับงานขนาดเล็กหรือใช้ GPU ที่มี VRAM มากกว่า
Dependencies ที่ไม่ตรงกัน:
- ตรวจสอบให้แน่ใจว่าเวอร์ชัน PyTorch/CUDA ตรงกับไดรเวอร์และ OS ของคุณ
- สร้างสภาพแวดล้อมเสมือนที่สะอาดใหม่และติดตั้งข้อกำหนดใหม่
ลำดับการอ่านไม่ถูกต้อง:
- เปิดใช้งานหรือปรับการตั้งค่าที่รับรู้ถึงเลย์เอาต์ในการกำหนดค่า Dolphin v2
- ประมวลผลอินพุตล่วงหน้า: แก้ไขความเอียง เพิ่มคอนทราสต์ ครอบตัดขอบ
ข้อผิดพลาดในการแยกวิเคราะห์ตาราง:
- เพิ่มความละเอียดหน้าสำหรับเอกสารที่มีตารางหนาแน่น
- ตรวจสอบเกณฑ์การตรวจจับตารางในการประมวลผลภายหลัง
ปัญหาข้อความหลายภาษา:
- ลองใช้โหมด OCR-hybrid สำหรับภาษาเฉพาะ
- อัปเดตชุดภาษาและตรวจสอบให้แน่ใจว่ามีแบบอักษรสำหรับการเรนเดอร์
สคีมา JSON ที่ไม่สอดคล้องกันในแต่ละเวอร์ชัน:
- ปักหมุดเวอร์ชัน Dolphin v2 ของคุณในการผลิต
- เพิ่มขั้นตอนตัวแปลงเพื่อทำให้ฟิลด์เป็นมาตรฐานระหว่างเวอร์ชัน
ผลลัพธ์ที่ไม่ดีในภาพถ่ายหน้าจอหรือกระดาษมัน:
- หลีกเลี่ยงการสะท้อนแสง ถ่ายในแสงที่กระจาย
- ใช้แอปสแกนเพื่อเพิ่มคอนทราสต์และทำให้มุมมองแบนราบ

หากคุณติดขัด ให้ค้นหาปัญหาที่มีอยู่หรือเปิดปัญหาใหม่ที่ https://github.com/bytedance/Dolphin พร้อมตัวอย่างที่ทำซ้ำได้ขั้นต่ำ

ข้อควรพิจารณาด้านความปลอดภัยและความเป็นส่วนตัว#

ประมวลผลเอกสารที่ละเอียดอ่อนในเครื่องเมื่อเป็นไปได้
หากปรับใช้ Dolphin v2 เป็นบริการ ให้รักษาความปลอดภัย API (การตรวจสอบสิทธิ์ ขีดจำกัดอัตรา TLS)
บันทึกเฉพาะสิ่งที่คุณต้องการ หลีกเลี่ยงการจัดเก็บเอกสารดิบเมื่อไม่จำเป็น
นโยบายการเก็บรักษาเอกสารควรเป็นไปตามสัญญาและข้อบังคับของลูกค้าของคุณ

ข้อควรพิจารณาเกี่ยวกับ Roadmap#

แม้ว่า roadmap ที่แน่นอนจะมีการพัฒนา แต่คาดว่าจะมีการปรับปรุงอย่างต่อเนื่องใน:

ความแข็งแกร่งหลายภาษาและการจัดการเอกสารที่ยาวนาน
การเพิ่มประสิทธิภาพความเร็ว/หน่วยความจำ
ความเข้าใจตาราง/แผนภูมิที่ดีขึ้นและการใส่คำบรรยายภาพ
เครื่องมือนักพัฒนา: เดโมที่อัปเกรด UI annotator และชุดเกณฑ์มาตรฐาน

ดู repo สำหรับรุ่น แท็ก และรายการ changelog ที่เกี่ยวข้องกับ Dolphin v2

Call to Action#

สำรวจโค้ดและเอกสาร: https://github.com/bytedance/Dolphin
ลองใช้ตัวอย่าง: เรียกใช้ Dolphin v2 บนสองสามหน้าจากขั้นตอนการทำงานของคุณเองและวัดการประหยัดเวลา
แบ่งปันความคิดเห็น: เปิดปัญหา เสนอคุณสมบัติ และมีส่วนร่วมในตัวอย่างที่ช่วยผู้สร้างสรรค์คนอื่นๆ
ผสานรวม: ห่อ Dolphin v2 ใน API ขนาดเล็กและเสียบเข้ากับไปป์ไลน์เนื้อหาของคุณในสัปดาห์นี้

Dolphin v2 มีเป้าหมายที่จะทำให้ความเข้าใจเอกสารรู้สึกเหมือนเป็นส่วนประกอบพื้นฐานสำหรับทีมสร้างสรรค์ เริ่มต้นเล็กๆ ทำซ้ำอย่างรวดเร็ว และปล่อยให้เอาต์พุตที่มีโครงสร้างทำงานหนักในขณะที่คุณมุ่งเน้นไปที่งานฝีมือ

คำถามที่พบบ่อย#

Dolphin v2 เปิดตัวอย่างเป็นทางการและเป็นโอเพนซอร์สหรือไม่#

ใช่ Dolphin v2 มีอยู่ใน repository อย่างเป็นทางการที่ https://github.com/bytedance/Dolphin และเป็นโอเพนซอร์สภายใต้ MIT License ตรวจสอบรุ่นและแท็กของ repo สำหรับเวอร์ชันล่าสุด

ความแตกต่างหลักระหว่าง Dolphin v1 และ Dolphin v2 คืออะไร#

Dolphin v2 ปรับปรุงความแข็งแกร่งในโลกแห่งความเป็นจริง ความสอดคล้องของเอาต์พุตที่มีโครงสร้าง ความเข้าใจตาราง/แบบฟอร์ม และความง่ายในการปรับใช้ นอกจากนี้ยังเน้นการจัดการหลายหน้าที่ราบรื่นยิ่งขึ้นและไปป์ไลน์ JSON-first ที่เหมาะสำหรับการทำให้เป็นอัตโนมัติในการสร้างสรรค์

ฉันสามารถใช้ Dolphin v2 โดยไม่มี GPU ได้หรือไม่#

ได้ สำหรับปริมาณงานขนาดเล็ก การอนุมาน CPU เป็นไปได้ แต่ช้ากว่า สำหรับปริมาณงานการผลิตหรือ PDF ขนาดใหญ่ ขอแนะนำให้ใช้ GPU ที่ทันสมัย Dolphin v2 ได้รับประโยชน์อย่างมากจากการเร่งความเร็ว GPU

Dolphin v2 ต้องใช้ OCR หรือไม่#

ไม่จำเป็น Dolphin v2 รองรับโหมด OCR-free และสามารถผสานรวม OCR เป็นตัวสำรองได้ สำหรับกรณีที่ยาก (คอนทราสต์ต่ำ สคริปต์หายาก) การตั้งค่าไฮบริดอาจปรับปรุงความแม่นยำ

ฉันจะติดตั้ง Dolphin v2 ได้อย่างไร#

โคลน repo สร้างสภาพแวดล้อม Python ที่สะอาด ติดตั้งข้อกำหนด ดาวน์โหลดน้ำหนักโมเดล และเรียกใช้สคริปต์การอนุมานตัวอย่าง ขั้นตอนและคำสั่งที่แน่นอนมีการบันทึกไว้ใน Dolphin v2 repository

Dolphin v2 สามารถส่งออกรูปแบบไฟล์ใดได้บ้าง#

โดยทั่วไป Dolphin v2 จะส่งออก JSON ที่มีโครงสร้าง ซึ่งสามารถแปลงเป็น CSV, Markdown หรือ HTML ได้ หลายทีมเก็บ JSON ไว้ระหว่างการประมวลผลและแปลงเฉพาะในตอนท้าย

Dolphin v2 เหมาะสำหรับการใช้งานเชิงพาณิชย์หรือไม่#

ใช่ Dolphin v2 ได้รับการเผยแพร่ภายใต้ MIT License ซึ่งอนุญาตและเป็นมิตรกับการนำไปใช้ในเชิงพาณิชย์ ตรวจสอบไฟล์ LICENSE ใน repo สำหรับรายละเอียด

Dolphin v2 เปรียบเทียบกับทางเลือกอื่นอย่างไร#

Dolphin v2 มีเป้าหมายที่จะแข็งแกร่งและใช้งานได้จริงสำหรับขั้นตอนการทำงานสร้างสรรค์ในโลกแห่งความเป็นจริง เมื่อเทียบกับสแต็ก OCR-plus-rules จะช่วยลดฮิวริสติกที่เปราะบาง เมื่อเทียบกับตัวแยกวิเคราะห์เอกสารที่ทันสมัย Dolphin v2 มีความสามารถในการแข่งขันและมักจะผสานรวมได้ง่ายกว่า ประเมินบนเอกสารของคุณเองเพื่อการเปรียบเทียบที่เป็นธรรม

ฉันจะได้รับการสนับสนุนสำหรับ Dolphin v2 ได้ที่ไหน#

ใช้ GitHub Issues ใน repository อย่างเป็นทางการสำหรับรายงานข้อผิดพลาด คำถาม และคำขอคุณสมบัติ repo อาจเชื่อมโยงไปยัง Hugging Face model card หรือเธรดชุมชนด้วย

แนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้ Dolphin v2 ในการผลิตคืออะไร#

ปักหมุดเวอร์ชัน เรียกใช้ขั้นตอนการตรวจสอบสำหรับเอกสารที่สำคัญ บันทึกเมตริกประสิทธิภาพ และรักษาความปลอดภัย API ของคุณ เริ่มต้นด้วยบริการขนาดเล็กที่ส่งคืน JSON และปรับขนาดตามความต้องการปริมาณงานของคุณ