Dolphin v2: คู่มือเชิงปฏิบัติสำหรับการแยกวิเคราะห์ภาพเอกสารยุคถัดไปสำหรับขั้นตอนการทำงานสร้างสรรค์

Dolphin v2: คู่มือเชิงปฏิบัติสำหรับการแยกวิเคราะห์ภาพเอกสารยุคถัดไปสำหรับขั้นตอนการทำงานสร้างสรรค์

13 min read

ภาพรวม: ทำไม Dolphin v2 ถึงสำคัญสำหรับผู้สร้างสรรค์คอนเทนต์#

Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารโอเพนซอร์สที่ออกแบบมาเพื่อแปลงเอกสารภาพที่ซับซ้อน เช่น PDF ที่สแกน ใบเสร็จ แบบฟอร์ม สไลด์ นิตยสาร และสตอรีบอร์ด ให้เป็นเอาต์พุตที่มีโครงสร้างและเครื่องอ่านได้ สำหรับผู้สร้างสรรค์คอนเทนต์ที่ต้องเผชิญกับอินพุตที่ยุ่งเหยิงและงานธุรการที่กินเวลาเป็นประจำ Dolphin v2 สัญญาว่าจะช่วยให้คุณเข้าถึงเนื้อหาที่สามารถแก้ไข ค้นหา และทำให้เป็นอัตโนมัติได้จากไฟล์ดิบได้เร็วยิ่งขึ้น

ไม่ว่าคุณจะเป็นผู้สร้างวิดีโอที่ดึงสคริปต์จาก PDF นักออกแบบที่แยกวิเคราะห์แนวทางแบรนด์และชีตสไตล์ นักเขียนที่รวบรวมข้อมูลอ้างอิงจากหนังสือที่สแกน หรือนักพากย์ที่จัดระเบียบชีตบทสนทนาของตัวละคร Dolphin v2 สามารถเปลี่ยนภาพเอกสารที่ไม่มีโครงสร้างให้เป็น JSON, CSV, Markdown หรือข้อความธรรมดาที่สะอาดตาได้ เป็นโอเพนซอร์ส (MIT License) มีการพัฒนาอย่างต่อเนื่อง และพร้อมใช้งานบน GitHub ที่ https://github.com/bytedance/Dolphin โดยมีโมเดลที่โฮสต์ผ่านชุมชน (ดูเอกสารประกอบโปรเจกต์สำหรับลิงก์ Hugging Face)

ในคู่มือนี้ เราจะสรุปว่า Dolphin v2 คืออะไร อะไรคือสิ่งใหม่เมื่อเทียบกับ v1 ทำงานอย่างไร วิธีการติดตั้งและใช้งาน ข้อผิดพลาดทั่วไป ข้อควรพิจารณาด้านประสิทธิภาพ และกรณีการใช้งานสร้างสรรค์ที่เป็นประโยชน์ เพื่อให้คุณสามารถนำ Dolphin v2 มาใช้ในขั้นตอนการทำงานประจำวันของคุณได้อย่างมั่นใจ

Dolphin v2 คืออะไร#

โดยสรุป:

  • Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารที่อ่านภาพหรือ PDF และส่งออกข้อมูลที่มีโครงสร้าง
  • มุ่งเป้าไปที่ไปป์ไลน์ที่ไม่มี OCR หรือ OCR-light ลดการพึ่งพาขั้นตอน OCR ที่เปราะบาง
  • รองรับเอกสารประเภทต่างๆ (แบบฟอร์ม ใบแจ้งหนี้ ตาราง แผนภูมิ นิตยสารหลายคอลัมน์ โปสเตอร์)
  • เหมาะสำหรับการอนุมานในเครื่องอย่างรวดเร็วและการปรับใช้เซิร์ฟเวอร์ที่ปรับขนาดได้
  • เป็นโอเพนซอร์สภายใต้ MIT License ส่งเสริมการใช้งานเชิงพาณิชย์และการวิจัย
  • โค้ด โมเดล เดโม และเอกสารประกอบได้รับการดูแลผ่านทาง GitHub repository อย่างเป็นทางการ: https://github.com/bytedance/Dolphin

Dolphin v2 สร้างขึ้นเพื่อให้ใช้งานได้จริง แข็งแกร่ง และเป็นมิตรกับนักพัฒนา มีจุดมุ่งหมายเพื่อลดแรงเสียดทานในการทำความเข้าใจเอกสารและเร่งความเร็วของงานก่อนการผลิตหรือหลังการผลิตที่ซับซ้อน ซึ่งผู้สร้างสรรค์มักใช้เวลาหลายชั่วโมงในการถอดเสียง ติดแท็ก และจัดระเบียบเนื้อหาใหม่ด้วยตนเอง

สิ่งใหม่ใน Dolphin v2 เทียบกับ v1#

Dolphin v2 มุ่งเน้นไปที่การปรับปรุงคุณภาพชีวิต ความแข็งแกร่งในสถานการณ์จริง และความง่ายในการผสานรวม แม้ว่ารายละเอียดการใช้งานที่แน่นอนจะมีการพัฒนา แต่ผู้สร้างสรรค์สามารถคาดหวังการปรับปรุงที่สำคัญเหล่านี้ได้:

  • ความแข็งแกร่งในการจับภาพในโลกแห่งความเป็นจริง:

    • จัดการการสแกนด้วยมือถือที่เอียง แสงน้อย หรือไม่สมบูรณ์ได้ดีขึ้น
    • ปรับปรุงความทนทานต่อคำอธิบายประกอบที่มีสัญญาณรบกวน ตราประทับ และลายน้ำ
  • ความเข้าใจโครงสร้างที่ดีขึ้น:

    • การแยกวิเคราะห์เลย์เอาต์ที่แม่นยำยิ่งขึ้นสำหรับสิ่งพิมพ์หลายคอลัมน์และหลายภาษา
    • การจัดการตาราง แผนภูมิ และคู่คีย์-ค่าที่แข็งแกร่งยิ่งขึ้น ซึ่งพบได้บ่อยในแบบฟอร์มและใบแจ้งหนี้
  • การรองรับเอกสารที่ยาวขึ้น:

    • การปรับปรุงการแบ่งส่วน การรับรู้การใส่เลขหน้า และบริบทข้ามหน้า
    • การเย็บเอาต์พุตที่มีโครงสร้างที่ราบรื่นยิ่งขึ้นใน PDF หลายหน้า
  • โหมด OCR-light/OCR-free:

    • ลดความจำเป็นในการใช้ขั้นตอน OCR แยกต่างหาก เมื่อใช้ OCR Dolphin v2 รองรับเอ็นจิน OCR แบบปลั๊กอินเป็นตัวสำรอง
  • เอาต์พุต JSON-first:

    • สคีมาที่สะอาดและสอดคล้องกันมากขึ้นสำหรับการทำให้เป็นอัตโนมัติใน Notion, Airtable, ปลั๊กอิน Figma, สเปรดชีต หรือสคริปต์ NLE
  • การปรับใช้ที่คล่องตัว:

    • ตัวอย่างเซิร์ฟเวอร์/API ที่ตรงไปตรงมายิ่งขึ้นและการเริ่มต้นแบบ cold-start ที่เร็วขึ้นสำหรับการใช้งานจริง
    • การส่งออกไปยังรูปแบบต่างๆ เช่น CSV, Markdown และ HTML ได้ง่ายขึ้น
  • ประสบการณ์นักพัฒนาที่ดีขึ้น:

    • การกำหนดค่าที่ชัดเจนยิ่งขึ้น สมุดบันทึกตัวอย่าง และไปป์ไลน์อ้างอิง
    • MIT License ทำให้การนำไปใช้ในไปป์ไลน์เชิงพาณิชย์เป็นเรื่องง่าย

โดยรวมแล้ว การปรับปรุงเหล่านี้ทำให้ Dolphin v2 น่าเชื่อถือ ใช้งานได้เร็วขึ้น และมีประสิทธิภาพมากขึ้นสำหรับขั้นตอนการทำงานที่เน้นผู้สร้างสรรค์ทุกขนาด

Dolphin v2 ทำงานอย่างไร (ระดับสูง)#

แม้ว่าโมดูลเฉพาะและสูตรการฝึกอบรมจะมีการบันทึกไว้ใน repo แต่ต่อไปนี้เป็นมุมมองเชิงแนวคิดเกี่ยวกับวิธีที่ Dolphin v2 ประมวลผลเอกสาร:

  1. การเข้ารหัสภาพ:

    • ภาพหน้าอินพุต (จาก PDF หรือการจับภาพด้วยกล้อง) จะถูกทำให้เป็นมาตรฐานและป้อนเข้าสู่ vision backbone เพื่อสร้างการฝังภาพที่สมบูรณ์ซึ่งรับรู้ถึงเลย์เอาต์
  2. การถอดรหัสภาษาและโครงสร้าง:

    • ตัวถอดรหัสข้อความ (มักจะเป็น transformer) สร้างโทเค็นที่มีโครงสร้างซึ่งแสดงถึงเนื้อหาเอกสารและองค์ประกอบเลย์เอาต์ (ส่วนหัว ย่อหน้า รายการ ตาราง เซลล์ คู่คีย์-ค่า)
  3. การสร้างที่นำโดยสคีมา:

    • Dolphin v2 ได้รับการปรับแต่งเพื่อสร้างเอาต์พุตที่มีโครงสร้าง ซึ่งโดยทั่วไปคือ JSON ตามสคีมาที่คาดการณ์ได้ซึ่งคุณสามารถแมปกับแอปของคุณได้
    • ซึ่งรวมถึงพิกัดเซลล์ตาราง ลำดับการอ่าน ส่วนหัว และความสัมพันธ์ระหว่างป้ายกำกับและค่าในแบบฟอร์ม
  4. การผสานรวม OCR เสริม:

    • สำหรับภาษาเฉพาะหรือภาพที่มีคอนทราสต์ต่ำ ปลั๊กอิน OCR อาจปรับปรุงความเที่ยงตรงของข้อความ Dolphin v2 มีความยืดหยุ่น: ใช้โหมด OCR-free เพื่อความเร็วและความเรียบง่าย หรือโหมดไฮบริดเพื่อความแม่นยำในกรณีที่ยาก
  5. การประมวลผลภายหลัง:

    • เอาต์พุตได้รับการทำให้เป็นมาตรฐานในรูปแบบที่เครื่องมือการผลิตของคุณสามารถใช้งานได้ ลองนึกถึง CSV สำหรับสเปรดชีต Markdown สำหรับเอกสารและวิกิ หรือ JSON สำหรับการทำให้เป็นอัตโนมัติและ API

สำหรับผู้สร้างสรรค์ ประเด็นสำคัญคือ Dolphin v2 มีเป้าหมายเพื่อลดการทำความสะอาดด้วยตนเอง คุณจะได้รับเนื้อหาที่มีโครงสร้างพร้อมที่จะแก้ไข จัดแนว หรือเผยแพร่ โดยไม่ต้องสร้างไปป์ไลน์ของคุณใหม่ตั้งแต่เริ่มต้น

ข้อกำหนดของระบบและความเข้ากันได้#

Dolphin v2 ได้รับการออกแบบมาให้ทำงานบนการตั้งค่าผู้บริโภคและเวิร์กสเตชันที่ทันสมัย ข้อกำหนดทั่วไป:

  • OS: Linux หรือ Windows (macOS สำหรับการอนุมาน CPU การเร่งความเร็ว GPU แตกต่างกันไปตามฮาร์ดแวร์)
  • Python: 3.8–3.11 (ตรวจสอบ repo สำหรับเวอร์ชันที่แน่นอน)
  • Dependencies: PyTorch (บิลด์ GPU ต้องรองรับ CUDA), OpenCV, Pillow และไลบรารี ML มาตรฐานอื่นๆ
  • Hardware:
    • การอนุมาน CPU-only เป็นไปได้สำหรับงานขนาดเล็ก
    • สำหรับปริมาณงานแบบเรียลไทม์หรือแบบแบตช์ ขอแนะนำให้ใช้ GPU ที่ทันสมัยเพียงตัวเดียว (เช่น 12–24 GB VRAM)
    • การตั้งค่า Multi-GPU สามารถเร่งการประมวลผลขนาดใหญ่ใน PDF ที่ยาวหรือไฟล์เก็บถาวรขนาดใหญ่ได้

ความเข้ากันได้:

  • PDF มักจะถูกแบ่งออกเป็นภาพต่อหน้า Dolphin v2 ประมวลผลภาพหน้าเหล่านี้ (PNG/JPG)
  • ผสานรวมได้ดีกับการทำให้เป็นอัตโนมัติที่ใช้ Python, REST API และ toolchain สร้างสรรค์ผ่าน JSON/CSV
  • MIT License ทำให้ Dolphin v2 ง่ายต่อการเสียบเข้ากับขั้นตอนการทำงานที่เป็นกรรมสิทธิ์

โปรดดู https://github.com/bytedance/Dolphin เสมอสำหรับข้อกำหนดที่ถูกต้องและเป็นปัจจุบันที่สุด

การติดตั้งและการเริ่มต้นอย่างรวดเร็ว#

Dolphin v2 รองรับการปรับใช้ในเครื่องและเซิร์ฟเวอร์ ขั้นตอนที่แน่นอนอาจแตกต่างกันไป สิ่งต่อไปนี้สะท้อนถึงโฟลว์ทั่วไปใน repo อย่างเป็นทางการ

ตัวเลือก A: จากซอร์ส

# 1) โคลน repository
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

# 2) (แนะนำ) สร้างสภาพแวดล้อมที่สะอาด
# ใช้ Conda/Mamba เป็นตัวอย่าง:
conda create -n dolphinv2 python=3.10 -y
conda activate dolphinv2

# 3) ติดตั้ง dependencies (ดู repo สำหรับไฟล์ข้อกำหนดที่แน่นอน)
pip install -r requirements.txt

# 4) (เสริม) ติดตั้ง PyTorch ที่เปิดใช้งาน GPU ตามเวอร์ชัน CUDA ของคุณ:
# เยี่ยมชม https://pytorch.org/get-started/locally/ สำหรับคำสั่งที่ถูกต้อง

# 5) ดาวน์โหลดน้ำหนักโมเดลตามที่ระบุไว้ใน repo หรือ model card
# เช่น scripts/download_weights.sh (ถ้ามี) หรือดาวน์โหลดด้วยตนเอง

# 6) เรียกใช้เดโมการอนุมานอย่างรวดเร็ว (คำสั่งตัวอย่าง - ตรวจสอบ repo สำหรับรายละเอียด)
python tools/infer.py \
  --image_path ./samples/invoice_01.jpg \
  --output ./outputs/invoice_01.json \
  --config ./configs/dolphin_v2.yaml \
  --weights ./weights/dolphin_v2.pth

ตัวเลือก B: ใช้สมุดบันทึกหรือแอปเดโมที่ให้มา

  • repository มักจะมี Jupyter notebook พร้อมตัวอย่างแบบ end-to-end
  • บิลด์ชุมชนบางส่วนเผยแพร่ Dolphin v2 บน Hugging Face หากมีไปป์ไลน์ที่สร้างไว้ล่วงหน้า ให้ลองใช้กับเบราว์เซอร์หรือ Colab notebook ของคุณ

ตัวอย่าง Python (รูปแบบเท่านั้น - อ้างอิงถึง repo สำหรับ API ที่แน่นอน):

from pathlib import Path
from PIL import Image
import json

# Pseudocode: ชื่อ API จริงอาจแตกต่างกัน
# เช่น dolphin.load_model(), dolphin.preprocess(), dolphin.postprocess()

# 1) โหลดโมเดล
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

# 2) ประมวลผลภาพล่วงหน้า
img = Image.open("samples/storyboard_page.jpg").convert("RGB")
batch = preprocess_for_dolphin_v2([img])

# 3) การอนุมาน
with torch.no_grad():
    raw_outputs = model(batch)

# 4) ประมวลผลภายหลังเป็น JSON ที่มีโครงสร้าง
result = postprocess_dolphin_v2(raw_outputs)[0]

# 5) บันทึกและตรวจสอบ
Path("outputs").mkdir(exist_ok=True)
with open("outputs/storyboard_page.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)

print("Extracted keys:", list(result.keys()))

เคล็ดลับ: โดยทั่วไป Dolphin v2 จะส่งคืนองค์ประกอบที่มีโครงสร้าง เช่น ย่อหน้า ชื่อ ตารางที่มีเซลล์ หรือฟิลด์คีย์-ค่าสำหรับแบบฟอร์ม คุณสามารถแปลงสิ่งเหล่านั้นเป็น CSV, Markdown หรือสคีมา CMS ของคุณได้

การใช้ Dolphin v2 ใน Production API#

หลายทีมห่อ Dolphin v2 ในบริการ REST ที่มีน้ำหนักเบาและเรียกใช้จากเครื่องมือสร้างสรรค์ NLE หรือสคริปต์อัตโนมัติ ตัวอย่าง FastAPI ขั้นต่ำ (โครงสร้างเท่านั้น ปรับให้เข้ากับฟังก์ชันของ repo):

from fastapi import FastAPI, UploadFile, File
from PIL import Image
import io, json

app = FastAPI()
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")

@app.post("/parse")
async def parse_document(file: UploadFile = File(...)):
    content = await file.read()
    image = Image.open(io.BytesIO(content)).convert("RGB")
    batch = preprocess_for_dolphin_v2([image])
    with torch.no_grad():
        raw = model(batch)
    result = postprocess_dolphin_v2(raw)[0]
    return result  # FastAPI จะ serialize dict->JSON

ปรับใช้สิ่งนี้เบื้องหลัง Nginx หรือ endpoint GPU แบบ serverless และเชื่อมต่อกับระบบ MAM/DAM, Google Sheets, Notion หรือไปป์ไลน์ของคุณเอง

ประสิทธิภาพและเกณฑ์มาตรฐาน#

ประสิทธิภาพขึ้นอยู่กับ GPU ความละเอียดอินพุต และความซับซ้อนของเอกสาร โดยทั่วไป:

  • Dolphin v2 มีเป้าหมายที่จะให้ความแม่นยำสูงกว่า v1 ในหน้าหลายคอลัมน์ แบบฟอร์ม ใบแจ้งหนี้ และการสแกนที่มีสัญญาณรบกวน
  • เวลาแฝงต่อหน้าอาจใกล้เคียงกับเรียลไทม์บน GPU ที่ทันสมัยเพียงตัวเดียว โดยการประมวลผลแบบแบตช์จะเร่งความเร็ว PDF หลายหน้า
  • เพื่อผลลัพธ์ที่ดีที่สุด ให้ปรับความละเอียดอินพุตให้สอดคล้องกับการตั้งค่าที่แนะนำของโมเดล (ดูการกำหนดค่า)

การเปรียบเทียบ:

  • เมื่อเทียบกับการแยกวิเคราะห์ OCR + ตามกฎแบบเดิม Dolphin v2 จะลดฮิวริสติกที่เปราะบางและการทำความสะอาดด้วยตนเอง
  • เมื่อเทียบกับสแต็กความเข้าใจเอกสารรุ่นเก่า Dolphin v2 เน้นที่เลย์เอาต์ ความเที่ยงตรงของโครงสร้าง และสคีมาที่สอดคล้องกัน
  • รายงานของชุมชนระบุผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับแนวทาง OCR-free ที่ทันสมัยในเกณฑ์มาตรฐานทั่วไป (เช่น งานสไตล์ FUNSD, SROIE, DocVQA) สำหรับตัวเลขและแผนภูมิที่แน่นอน โปรดดูส่วนเกณฑ์มาตรฐานและ model card ของ repository

เคล็ดลับเกณฑ์มาตรฐานที่ทำซ้ำได้:

  • แก้ไขความละเอียดอินพุตและขนาดแบตช์
  • ใช้ชุดเอกสารจริงของคุณที่เก็บไว้ (ไม่ใช่แค่ชุดข้อมูลสาธารณะ)
  • วัดทั้งความแม่นยำ (ความเที่ยงตรงของข้อความ ความแม่นยำของโครงสร้าง) และต้นทุน (เวลาแฝง หน่วยความจำ GPU)
  • บันทึกเวลาการประมวลผลภายหลัง มีความสำคัญในการผลิต

กรณีการใช้งานจริงสำหรับผู้สร้างสรรค์#

Dolphin v2 โดดเด่นในขั้นตอนการทำงานสร้างสรรค์ในชีวิตประจำวัน:

  • ผู้สร้างและตัดต่อวิดีโอ:

    • แยกสคริปต์และรายการช็อตจาก PDF และสมุดบันทึกที่สแกน
    • แปลงสตอรีบอร์ดเป็นข้อมูลที่มีโครงสร้าง ทำให้ง่ายต่อการวางแผนการแก้ไขและติดตามความต่อเนื่อง
    • สร้างฉบับร่างคำบรรยายโดยอัตโนมัติจากสไลด์พร้อมบันทึกของผู้พูด
  • นักออกแบบและผู้กำกับศิลป์:

    • แยกวิเคราะห์แนวทางแบรนด์เป็น Markdown ที่ค้นหาได้และข้อกำหนดส่วนประกอบ
    • แยกจานสี กฎการพิมพ์ และข้อกำหนดกริดจาก PDF ที่มีสไตล์
  • นักเขียนและนักวิจัย:

    • แปลงข้อมูลอ้างอิงที่สแกนเป็นบันทึกที่สะอาดและมีโครงสร้างพร้อมการอ้างอิงและคำพูด
    • แยกวิเคราะห์ PDF ทางวิชาการหลายคอลัมน์เป็นส่วนต่างๆ ในขณะที่ยังคงลำดับการอ่านไว้
  • นักพากย์และโปรดิวเซอร์เสียง:

    • เปลี่ยนชีตตัวละคร ชีตการโทร และด้านต่างๆ ให้เป็น CSV ที่ได้มาตรฐานสำหรับการค้นหาอย่างรวดเร็ว
    • แยกคู่มือการออกเสียงและคำอธิบายประกอบเป็นพจนานุกรมที่มีโครงสร้าง
  • ฟรีแลนซ์และสตูดิโอ:

    • ทำให้การแยกวิเคราะห์ใบแจ้งหนี้และใบเสร็จเป็นอัตโนมัติสำหรับการทำบัญชีและการเตรียมภาษี
    • ประมวลผล NDAs และสัญญาเป็นสรุปคีย์-ค่า (คู่สัญญา วันที่ จำนวนเงิน)

ในทุกกรณี Dolphin v2 จะลดงานที่ต้องทำซ้ำๆ ด้วยตนเองและเพิ่มเวลาสำหรับการตัดสินใจสร้างสรรค์

รูปแบบการผสานรวมและแนวทางปฏิบัติที่ดีที่สุด#

  • JSON-first: เก็บเอาต์พุต Dolphin v2 เป็น JSON ตลอดไปป์ไลน์ของคุณ แปลงเป็น CSV/Markdown เฉพาะในขั้นตอนสุดท้าย
  • Human-in-the-loop: สำหรับเอกสารที่สำคัญ ให้เพิ่ม UI การตรวจสอบอย่างรวดเร็วที่บรรณาธิการสามารถอนุมัติหรือแก้ไขเอาต์พุตได้
  • เทมเพลตและพรอมต์: หาก repo มีเทมเพลตสคีมาหรือพรอมต์ ให้ทำให้เป็นมาตรฐานในทีมของคุณเพื่อให้เอาต์พุตคาดการณ์ได้
  • กฎการประมวลผลภายหลัง: เพิ่มกฎแสงเพื่อจัดการกับกรณีพิเศษ (เช่น การรวมบรรทัดที่แยก การแก้ไขข้อผิดพลาดในการสำรอง OCR)
  • การปักหมุดเวอร์ชัน: ปักหมุดน้ำหนัก Dolphin v2 และเวอร์ชันการกำหนดค่าในการผลิตเพื่อหลีกเลี่ยงการเปลี่ยนแปลงที่ไม่คาดคิดระหว่างการอัปเดต
  • ที่เก็บข้อมูล: บันทึกทั้งภาพดิบและเอาต์พุต JSON ของ Dolphin v2 เพื่อการตรวจสอบย้อนกลับและการประมวลผลใหม่ที่รวดเร็ว

การออกใบอนุญาต การกำกับดูแล และชุมชน#

  • License: MIT License—อนุญาต เหมาะสำหรับการใช้งานเชิงพาณิชย์และโอเพนซอร์ส ดู LICENSE ใน https://github.com/bytedance/Dolphin
  • ความโปร่งใส: ตรวจสอบ README, model card และ changelog ของ repo สำหรับข้อจำกัดปัจจุบันและการใช้งานที่ตั้งใจไว้
  • การมีส่วนร่วม: โปรเจกต์ยินดีรับปัญหาและ pull request เปิดตั๋วสำหรับข้อบกพร่อง คำขอคุณสมบัติ หรือการปรับปรุงเอกสาร
  • ชุมชน: การสนทนาและถามตอบมักเกิดขึ้นผ่าน GitHub Issues มองหาลิงก์ไปยังฟอรัมอย่างเป็นทางการหรือเธรดชุมชน Hugging Face ใน repo

ด้วยการนำ Dolphin v2 มาใช้ภายใต้ MIT ทีมต่างๆ สามารถผสานรวมเข้ากับไปป์ไลน์และผลิตภัณฑ์สร้างสรรค์ที่เป็นกรรมสิทธิ์ได้อย่างปลอดภัย

การแก้ไขปัญหา Dolphin v2#

ปัญหาและการแก้ไขทั่วไป:

  • หน่วยความจำไม่พอ (OOM) บน GPU:

    • ลดความละเอียดอินพุตหรือขนาดแบตช์
    • ใช้ความแม่นยำแบบผสม (AMP) หากรองรับ
    • สลับไปใช้ CPU สำหรับงานขนาดเล็กหรือใช้ GPU ที่มี VRAM มากกว่า
  • Dependencies ที่ไม่ตรงกัน:

    • ตรวจสอบให้แน่ใจว่าเวอร์ชัน PyTorch/CUDA ตรงกับไดรเวอร์และ OS ของคุณ
    • สร้างสภาพแวดล้อมเสมือนที่สะอาดใหม่และติดตั้งข้อกำหนดใหม่
  • ลำดับการอ่านไม่ถูกต้อง:

    • เปิดใช้งานหรือปรับการตั้งค่าที่รับรู้ถึงเลย์เอาต์ในการกำหนดค่า Dolphin v2
    • ประมวลผลอินพุตล่วงหน้า: แก้ไขความเอียง เพิ่มคอนทราสต์ ครอบตัดขอบ
  • ข้อผิดพลาดในการแยกวิเคราะห์ตาราง:

    • เพิ่มความละเอียดหน้าสำหรับเอกสารที่มีตารางหนาแน่น
    • ตรวจสอบเกณฑ์การตรวจจับตารางในการประมวลผลภายหลัง
  • ปัญหาข้อความหลายภาษา:

    • ลองใช้โหมด OCR-hybrid สำหรับภาษาเฉพาะ
    • อัปเดตชุดภาษาและตรวจสอบให้แน่ใจว่ามีแบบอักษรสำหรับการเรนเดอร์
  • สคีมา JSON ที่ไม่สอดคล้องกันในแต่ละเวอร์ชัน:

    • ปักหมุดเวอร์ชัน Dolphin v2 ของคุณในการผลิต
    • เพิ่มขั้นตอนตัวแปลงเพื่อทำให้ฟิลด์เป็นมาตรฐานระหว่างเวอร์ชัน
  • ผลลัพธ์ที่ไม่ดีในภาพถ่ายหน้าจอหรือกระดาษมัน:

    • หลีกเลี่ยงการสะท้อนแสง ถ่ายในแสงที่กระจาย
    • ใช้แอปสแกนเพื่อเพิ่มคอนทราสต์และทำให้มุมมองแบนราบ

หากคุณติดขัด ให้ค้นหาปัญหาที่มีอยู่หรือเปิดปัญหาใหม่ที่ https://github.com/bytedance/Dolphin พร้อมตัวอย่างที่ทำซ้ำได้ขั้นต่ำ

ข้อควรพิจารณาด้านความปลอดภัยและความเป็นส่วนตัว#

  • ประมวลผลเอกสารที่ละเอียดอ่อนในเครื่องเมื่อเป็นไปได้
  • หากปรับใช้ Dolphin v2 เป็นบริการ ให้รักษาความปลอดภัย API (การตรวจสอบสิทธิ์ ขีดจำกัดอัตรา TLS)
  • บันทึกเฉพาะสิ่งที่คุณต้องการ หลีกเลี่ยงการจัดเก็บเอกสารดิบเมื่อไม่จำเป็น
  • นโยบายการเก็บรักษาเอกสารควรเป็นไปตามสัญญาและข้อบังคับของลูกค้าของคุณ

ข้อควรพิจารณาเกี่ยวกับ Roadmap#

แม้ว่า roadmap ที่แน่นอนจะมีการพัฒนา แต่คาดว่าจะมีการปรับปรุงอย่างต่อเนื่องใน:

  • ความแข็งแกร่งหลายภาษาและการจัดการเอกสารที่ยาวนาน
  • การเพิ่มประสิทธิภาพความเร็ว/หน่วยความจำ
  • ความเข้าใจตาราง/แผนภูมิที่ดีขึ้นและการใส่คำบรรยายภาพ
  • เครื่องมือนักพัฒนา: เดโมที่อัปเกรด UI annotator และชุดเกณฑ์มาตรฐาน

ดู repo สำหรับรุ่น แท็ก และรายการ changelog ที่เกี่ยวข้องกับ Dolphin v2

Call to Action#

  • สำรวจโค้ดและเอกสาร: https://github.com/bytedance/Dolphin
  • ลองใช้ตัวอย่าง: เรียกใช้ Dolphin v2 บนสองสามหน้าจากขั้นตอนการทำงานของคุณเองและวัดการประหยัดเวลา
  • แบ่งปันความคิดเห็น: เปิดปัญหา เสนอคุณสมบัติ และมีส่วนร่วมในตัวอย่างที่ช่วยผู้สร้างสรรค์คนอื่นๆ
  • ผสานรวม: ห่อ Dolphin v2 ใน API ขนาดเล็กและเสียบเข้ากับไปป์ไลน์เนื้อหาของคุณในสัปดาห์นี้

Dolphin v2 มีเป้าหมายที่จะทำให้ความเข้าใจเอกสารรู้สึกเหมือนเป็นส่วนประกอบพื้นฐานสำหรับทีมสร้างสรรค์ เริ่มต้นเล็กๆ ทำซ้ำอย่างรวดเร็ว และปล่อยให้เอาต์พุตที่มีโครงสร้างทำงานหนักในขณะที่คุณมุ่งเน้นไปที่งานฝีมือ

คำถามที่พบบ่อย#

Dolphin v2 เปิดตัวอย่างเป็นทางการและเป็นโอเพนซอร์สหรือไม่#

ใช่ Dolphin v2 มีอยู่ใน repository อย่างเป็นทางการที่ https://github.com/bytedance/Dolphin และเป็นโอเพนซอร์สภายใต้ MIT License ตรวจสอบรุ่นและแท็กของ repo สำหรับเวอร์ชันล่าสุด

ความแตกต่างหลักระหว่าง Dolphin v1 และ Dolphin v2 คืออะไร#

Dolphin v2 ปรับปรุงความแข็งแกร่งในโลกแห่งความเป็นจริง ความสอดคล้องของเอาต์พุตที่มีโครงสร้าง ความเข้าใจตาราง/แบบฟอร์ม และความง่ายในการปรับใช้ นอกจากนี้ยังเน้นการจัดการหลายหน้าที่ราบรื่นยิ่งขึ้นและไปป์ไลน์ JSON-first ที่เหมาะสำหรับการทำให้เป็นอัตโนมัติในการสร้างสรรค์

ฉันสามารถใช้ Dolphin v2 โดยไม่มี GPU ได้หรือไม่#

ได้ สำหรับปริมาณงานขนาดเล็ก การอนุมาน CPU เป็นไปได้ แต่ช้ากว่า สำหรับปริมาณงานการผลิตหรือ PDF ขนาดใหญ่ ขอแนะนำให้ใช้ GPU ที่ทันสมัย Dolphin v2 ได้รับประโยชน์อย่างมากจากการเร่งความเร็ว GPU

Dolphin v2 ต้องใช้ OCR หรือไม่#

ไม่จำเป็น Dolphin v2 รองรับโหมด OCR-free และสามารถผสานรวม OCR เป็นตัวสำรองได้ สำหรับกรณีที่ยาก (คอนทราสต์ต่ำ สคริปต์หายาก) การตั้งค่าไฮบริดอาจปรับปรุงความแม่นยำ

ฉันจะติดตั้ง Dolphin v2 ได้อย่างไร#

โคลน repo สร้างสภาพแวดล้อม Python ที่สะอาด ติดตั้งข้อกำหนด ดาวน์โหลดน้ำหนักโมเดล และเรียกใช้สคริปต์การอนุมานตัวอย่าง ขั้นตอนและคำสั่งที่แน่นอนมีการบันทึกไว้ใน Dolphin v2 repository

Dolphin v2 สามารถส่งออกรูปแบบไฟล์ใดได้บ้าง#

โดยทั่วไป Dolphin v2 จะส่งออก JSON ที่มีโครงสร้าง ซึ่งสามารถแปลงเป็น CSV, Markdown หรือ HTML ได้ หลายทีมเก็บ JSON ไว้ระหว่างการประมวลผลและแปลงเฉพาะในตอนท้าย

Dolphin v2 เหมาะสำหรับการใช้งานเชิงพาณิชย์หรือไม่#

ใช่ Dolphin v2 ได้รับการเผยแพร่ภายใต้ MIT License ซึ่งอนุญาตและเป็นมิตรกับการนำไปใช้ในเชิงพาณิชย์ ตรวจสอบไฟล์ LICENSE ใน repo สำหรับรายละเอียด

Dolphin v2 เปรียบเทียบกับทางเลือกอื่นอย่างไร#

Dolphin v2 มีเป้าหมายที่จะแข็งแกร่งและใช้งานได้จริงสำหรับขั้นตอนการทำงานสร้างสรรค์ในโลกแห่งความเป็นจริง เมื่อเทียบกับสแต็ก OCR-plus-rules จะช่วยลดฮิวริสติกที่เปราะบาง เมื่อเทียบกับตัวแยกวิเคราะห์เอกสารที่ทันสมัย Dolphin v2 มีความสามารถในการแข่งขันและมักจะผสานรวมได้ง่ายกว่า ประเมินบนเอกสารของคุณเองเพื่อการเปรียบเทียบที่เป็นธรรม

ฉันจะได้รับการสนับสนุนสำหรับ Dolphin v2 ได้ที่ไหน#

ใช้ GitHub Issues ใน repository อย่างเป็นทางการสำหรับรายงานข้อผิดพลาด คำถาม และคำขอคุณสมบัติ repo อาจเชื่อมโยงไปยัง Hugging Face model card หรือเธรดชุมชนด้วย

แนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้ Dolphin v2 ในการผลิตคืออะไร#

ปักหมุดเวอร์ชัน เรียกใช้ขั้นตอนการตรวจสอบสำหรับเอกสารที่สำคัญ บันทึกเมตริกประสิทธิภาพ และรักษาความปลอดภัย API ของคุณ เริ่มต้นด้วยบริการขนาดเล็กที่ส่งคืน JSON และปรับขนาดตามความต้องการปริมาณงานของคุณ

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles