ภาพรวม: ทำไม Dolphin v2 ถึงสำคัญสำหรับผู้สร้างสรรค์คอนเทนต์#
Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารโอเพนซอร์สที่ออกแบบมาเพื่อแปลงเอกสารภาพที่ซับซ้อน เช่น PDF ที่สแกน ใบเสร็จ แบบฟอร์ม สไลด์ นิตยสาร และสตอรีบอร์ด ให้เป็นเอาต์พุตที่มีโครงสร้างและเครื่องอ่านได้ สำหรับผู้สร้างสรรค์คอนเทนต์ที่ต้องเผชิญกับอินพุตที่ยุ่งเหยิงและงานธุรการที่กินเวลาเป็นประจำ Dolphin v2 สัญญาว่าจะช่วยให้คุณเข้าถึงเนื้อหาที่สามารถแก้ไข ค้นหา และทำให้เป็นอัตโนมัติได้จากไฟล์ดิบได้เร็วยิ่งขึ้น
ไม่ว่าคุณจะเป็นผู้สร้างวิดีโอที่ดึงสคริปต์จาก PDF นักออกแบบที่แยกวิเคราะห์แนวทางแบรนด์และชีตสไตล์ นักเขียนที่รวบรวมข้อมูลอ้างอิงจากหนังสือที่สแกน หรือนักพากย์ที่จัดระเบียบชีตบทสนทนาของตัวละคร Dolphin v2 สามารถเปลี่ยนภาพเอกสารที่ไม่มีโครงสร้างให้เป็น JSON, CSV, Markdown หรือข้อความธรรมดาที่สะอาดตาได้ เป็นโอเพนซอร์ส (MIT License) มีการพัฒนาอย่างต่อเนื่อง และพร้อมใช้งานบน GitHub ที่ https://github.com/bytedance/Dolphin โดยมีโมเดลที่โฮสต์ผ่านชุมชน (ดูเอกสารประกอบโปรเจกต์สำหรับลิงก์ Hugging Face)
ในคู่มือนี้ เราจะสรุปว่า Dolphin v2 คืออะไร อะไรคือสิ่งใหม่เมื่อเทียบกับ v1 ทำงานอย่างไร วิธีการติดตั้งและใช้งาน ข้อผิดพลาดทั่วไป ข้อควรพิจารณาด้านประสิทธิภาพ และกรณีการใช้งานสร้างสรรค์ที่เป็นประโยชน์ เพื่อให้คุณสามารถนำ Dolphin v2 มาใช้ในขั้นตอนการทำงานประจำวันของคุณได้อย่างมั่นใจ
Dolphin v2 คืออะไร#
โดยสรุป:
- Dolphin v2 คือโมเดลแยกวิเคราะห์ภาพเอกสารที่อ่านภาพหรือ PDF และส่งออกข้อมูลที่มีโครงสร้าง
- มุ่งเป้าไปที่ไปป์ไลน์ที่ไม่มี OCR หรือ OCR-light ลดการพึ่งพาขั้นตอน OCR ที่เปราะบาง
- รองรับเอกสารประเภทต่างๆ (แบบฟอร์ม ใบแจ้งหนี้ ตาราง แผนภูมิ นิตยสารหลายคอลัมน์ โปสเตอร์)
- เหมาะสำหรับการอนุมานในเครื่องอย่างรวดเร็วและการปรับใช้เซิร์ฟเวอร์ที่ปรับขนาดได้
- เป็นโอเพนซอร์สภายใต้ MIT License ส่งเสริมการใช้งานเชิงพาณิชย์และการวิจัย
- โค้ด โมเดล เดโม และเอกสารประกอบได้รับการดูแลผ่านทาง GitHub repository อย่างเป็นทางการ: https://github.com/bytedance/Dolphin
Dolphin v2 สร้างขึ้นเพื่อให้ใช้งานได้จริง แข็งแกร่ง และเป็นมิตรกับนักพัฒนา มีจุดมุ่งหมายเพื่อลดแรงเสียดทานในการทำความเข้าใจเอกสารและเร่งความเร็วของงานก่อนการผลิตหรือหลังการผลิตที่ซับซ้อน ซึ่งผู้สร้างสรรค์มักใช้เวลาหลายชั่วโมงในการถอดเสียง ติดแท็ก และจัดระเบียบเนื้อหาใหม่ด้วยตนเอง
สิ่งใหม่ใน Dolphin v2 เทียบกับ v1#
Dolphin v2 มุ่งเน้นไปที่การปรับปรุงคุณภาพชีวิต ความแข็งแกร่งในสถานการณ์จริง และความง่ายในการผสานรวม แม้ว่ารายละเอียดการใช้งานที่แน่นอนจะมีการพัฒนา แต่ผู้สร้างสรรค์สามารถคาดหวังการปรับปรุงที่สำคัญเหล่านี้ได้:
-
ความแข็งแกร่งในการจับภาพในโลกแห่งความเป็นจริง:
- จัดการการสแกนด้วยมือถือที่เอียง แสงน้อย หรือไม่สมบูรณ์ได้ดีขึ้น
- ปรับปรุงความทนทานต่อคำอธิบายประกอบที่มีสัญญาณรบกวน ตราประทับ และลายน้ำ
-
ความเข้าใจโครงสร้างที่ดีขึ้น:
- การแยกวิเคราะห์เลย์เอาต์ที่แม่นยำยิ่งขึ้นสำหรับสิ่งพิมพ์หลายคอลัมน์และหลายภาษา
- การจัดการตาราง แผนภูมิ และคู่คีย์-ค่าที่แข็งแกร่งยิ่งขึ้น ซึ่งพบได้บ่อยในแบบฟอร์มและใบแจ้งหนี้
-
การรองรับเอกสารที่ยาวขึ้น:
- การปรับปรุงการแบ่งส่วน การรับรู้การใส่เลขหน้า และบริบทข้ามหน้า
- การเย็บเอาต์พุตที่มีโครงสร้างที่ราบรื่นยิ่งขึ้นใน PDF หลายหน้า
-
โหมด OCR-light/OCR-free:
- ลดความจำเป็นในการใช้ขั้นตอน OCR แยกต่างหาก เมื่อใช้ OCR Dolphin v2 รองรับเอ็นจิน OCR แบบปลั๊กอินเป็นตัวสำรอง
-
เอาต์พุต JSON-first:
- สคีมาที่สะอาดและสอดคล้องกันมากขึ้นสำหรับการทำให้เป็นอัตโนมัติใน Notion, Airtable, ปลั๊กอิน Figma, สเปรดชีต หรือสคริปต์ NLE
-
การปรับใช้ที่คล่องตัว:
- ตัวอย่างเซิร์ฟเวอร์/API ที่ตรงไปตรงมายิ่งขึ้นและการเริ่มต้นแบบ cold-start ที่เร็วขึ้นสำหรับการใช้งานจริง
- การส่งออกไปยังรูปแบบต่างๆ เช่น CSV, Markdown และ HTML ได้ง่ายขึ้น
-
ประสบการณ์นักพัฒนาที่ดีขึ้น:
- การกำหนดค่าที่ชัดเจนยิ่งขึ้น สมุดบันทึกตัวอย่าง และไปป์ไลน์อ้างอิง
- MIT License ทำให้การนำไปใช้ในไปป์ไลน์เชิงพาณิชย์เป็นเรื่องง่าย
โดยรวมแล้ว การปรับปรุงเหล่านี้ทำให้ Dolphin v2 น่าเชื่อถือ ใช้งานได้เร็วขึ้น และมีประสิทธิภาพมากขึ้นสำหรับขั้นตอนการทำงานที่เน้นผู้สร้างสรรค์ทุกขนาด
Dolphin v2 ทำงานอย่างไร (ระดับสูง)#
แม้ว่าโมดูลเฉพาะและสูตรการฝึกอบรมจะมีการบันทึกไว้ใน repo แต่ต่อไปนี้เป็นมุมมองเชิงแนวคิดเกี่ยวกับวิธีที่ Dolphin v2 ประมวลผลเอกสาร:
-
การเข้ารหัสภาพ:
- ภาพหน้าอินพุต (จาก PDF หรือการจับภาพด้วยกล้อง) จะถูกทำให้เป็นมาตรฐานและป้อนเข้าสู่ vision backbone เพื่อสร้างการฝังภาพที่สมบูรณ์ซึ่งรับรู้ถึงเลย์เอาต์
-
การถอดรหัสภาษาและโครงสร้าง:
- ตัวถอดรหัสข้อความ (มักจะเป็น transformer) สร้างโทเค็นที่มีโครงสร้างซึ่งแสดงถึงเนื้อหาเอกสารและองค์ประกอบเลย์เอาต์ (ส่วนหัว ย่อหน้า รายการ ตาราง เซลล์ คู่คีย์-ค่า)
-
การสร้างที่นำโดยสคีมา:
- Dolphin v2 ได้รับการปรับแต่งเพื่อสร้างเอาต์พุตที่มีโครงสร้าง ซึ่งโดยทั่วไปคือ JSON ตามสคีมาที่คาดการณ์ได้ซึ่งคุณสามารถแมปกับแอปของคุณได้
- ซึ่งรวมถึงพิกัดเซลล์ตาราง ลำดับการอ่าน ส่วนหัว และความสัมพันธ์ระหว่างป้ายกำกับและค่าในแบบฟอร์ม
-
การผสานรวม OCR เสริม:
- สำหรับภาษาเฉพาะหรือภาพที่มีคอนทราสต์ต่ำ ปลั๊กอิน OCR อาจปรับปรุงความเที่ยงตรงของข้อความ Dolphin v2 มีความยืดหยุ่น: ใช้โหมด OCR-free เพื่อความเร็วและความเรียบง่าย หรือโหมดไฮบริดเพื่อความแม่นยำในกรณีที่ยาก
-
การประมวลผลภายหลัง:
- เอาต์พุตได้รับการทำให้เป็นมาตรฐานในรูปแบบที่เครื่องมือการผลิตของคุณสามารถใช้งานได้ ลองนึกถึง CSV สำหรับสเปรดชีต Markdown สำหรับเอกสารและวิกิ หรือ JSON สำหรับการทำให้เป็นอัตโนมัติและ API
สำหรับผู้สร้างสรรค์ ประเด็นสำคัญคือ Dolphin v2 มีเป้าหมายเพื่อลดการทำความสะอาดด้วยตนเอง คุณจะได้รับเนื้อหาที่มีโครงสร้างพร้อมที่จะแก้ไข จัดแนว หรือเผยแพร่ โดยไม่ต้องสร้างไปป์ไลน์ของคุณใหม่ตั้งแต่เริ่มต้น
ข้อกำหนดของระบบและความเข้ากันได้#
Dolphin v2 ได้รับการออกแบบมาให้ทำงานบนการตั้งค่าผู้บริโภคและเวิร์กสเตชันที่ทันสมัย ข้อกำหนดทั่วไป:
- OS: Linux หรือ Windows (macOS สำหรับการอนุมาน CPU การเร่งความเร็ว GPU แตกต่างกันไปตามฮาร์ดแวร์)
- Python: 3.8–3.11 (ตรวจสอบ repo สำหรับเวอร์ชันที่แน่นอน)
- Dependencies: PyTorch (บิลด์ GPU ต้องรองรับ CUDA), OpenCV, Pillow และไลบรารี ML มาตรฐานอื่นๆ
- Hardware:
- การอนุมาน CPU-only เป็นไปได้สำหรับงานขนาดเล็ก
- สำหรับปริมาณงานแบบเรียลไทม์หรือแบบแบตช์ ขอแนะนำให้ใช้ GPU ที่ทันสมัยเพียงตัวเดียว (เช่น 12–24 GB VRAM)
- การตั้งค่า Multi-GPU สามารถเร่งการประมวลผลขนาดใหญ่ใน PDF ที่ยาวหรือไฟล์เก็บถาวรขนาดใหญ่ได้
ความเข้ากันได้:
- PDF มักจะถูกแบ่งออกเป็นภาพต่อหน้า Dolphin v2 ประมวลผลภาพหน้าเหล่านี้ (PNG/JPG)
- ผสานรวมได้ดีกับการทำให้เป็นอัตโนมัติที่ใช้ Python, REST API และ toolchain สร้างสรรค์ผ่าน JSON/CSV
- MIT License ทำให้ Dolphin v2 ง่ายต่อการเสียบเข้ากับขั้นตอนการทำงานที่เป็นกรรมสิทธิ์
โปรดดู https://github.com/bytedance/Dolphin เสมอสำหรับข้อกำหนดที่ถูกต้องและเป็นปัจจุบันที่สุด
การติดตั้งและการเริ่มต้นอย่างรวดเร็ว#
Dolphin v2 รองรับการปรับใช้ในเครื่องและเซิร์ฟเวอร์ ขั้นตอนที่แน่นอนอาจแตกต่างกันไป สิ่งต่อไปนี้สะท้อนถึงโฟลว์ทั่วไปใน repo อย่างเป็นทางการ
ตัวเลือก A: จากซอร์ส
# 1) โคลน repository
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
# 2) (แนะนำ) สร้างสภาพแวดล้อมที่สะอาด
# ใช้ Conda/Mamba เป็นตัวอย่าง:
conda create -n dolphinv2 python=3.10 -y
conda activate dolphinv2
# 3) ติดตั้ง dependencies (ดู repo สำหรับไฟล์ข้อกำหนดที่แน่นอน)
pip install -r requirements.txt
# 4) (เสริม) ติดตั้ง PyTorch ที่เปิดใช้งาน GPU ตามเวอร์ชัน CUDA ของคุณ:
# เยี่ยมชม https://pytorch.org/get-started/locally/ สำหรับคำสั่งที่ถูกต้อง
# 5) ดาวน์โหลดน้ำหนักโมเดลตามที่ระบุไว้ใน repo หรือ model card
# เช่น scripts/download_weights.sh (ถ้ามี) หรือดาวน์โหลดด้วยตนเอง
# 6) เรียกใช้เดโมการอนุมานอย่างรวดเร็ว (คำสั่งตัวอย่าง - ตรวจสอบ repo สำหรับรายละเอียด)
python tools/infer.py \
--image_path ./samples/invoice_01.jpg \
--output ./outputs/invoice_01.json \
--config ./configs/dolphin_v2.yaml \
--weights ./weights/dolphin_v2.pth
ตัวเลือก B: ใช้สมุดบันทึกหรือแอปเดโมที่ให้มา
- repository มักจะมี Jupyter notebook พร้อมตัวอย่างแบบ end-to-end
- บิลด์ชุมชนบางส่วนเผยแพร่ Dolphin v2 บน Hugging Face หากมีไปป์ไลน์ที่สร้างไว้ล่วงหน้า ให้ลองใช้กับเบราว์เซอร์หรือ Colab notebook ของคุณ
ตัวอย่าง Python (รูปแบบเท่านั้น - อ้างอิงถึง repo สำหรับ API ที่แน่นอน):
from pathlib import Path
from PIL import Image
import json
# Pseudocode: ชื่อ API จริงอาจแตกต่างกัน
# เช่น dolphin.load_model(), dolphin.preprocess(), dolphin.postprocess()
# 1) โหลดโมเดล
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")
# 2) ประมวลผลภาพล่วงหน้า
img = Image.open("samples/storyboard_page.jpg").convert("RGB")
batch = preprocess_for_dolphin_v2([img])
# 3) การอนุมาน
with torch.no_grad():
raw_outputs = model(batch)
# 4) ประมวลผลภายหลังเป็น JSON ที่มีโครงสร้าง
result = postprocess_dolphin_v2(raw_outputs)[0]
# 5) บันทึกและตรวจสอบ
Path("outputs").mkdir(exist_ok=True)
with open("outputs/storyboard_page.json", "w", encoding="utf-8") as f:
json.dump(result, f, ensure_ascii=False, indent=2)
print("Extracted keys:", list(result.keys()))
เคล็ดลับ: โดยทั่วไป Dolphin v2 จะส่งคืนองค์ประกอบที่มีโครงสร้าง เช่น ย่อหน้า ชื่อ ตารางที่มีเซลล์ หรือฟิลด์คีย์-ค่าสำหรับแบบฟอร์ม คุณสามารถแปลงสิ่งเหล่านั้นเป็น CSV, Markdown หรือสคีมา CMS ของคุณได้
การใช้ Dolphin v2 ใน Production API#
หลายทีมห่อ Dolphin v2 ในบริการ REST ที่มีน้ำหนักเบาและเรียกใช้จากเครื่องมือสร้างสรรค์ NLE หรือสคริปต์อัตโนมัติ ตัวอย่าง FastAPI ขั้นต่ำ (โครงสร้างเท่านั้น ปรับให้เข้ากับฟังก์ชันของ repo):
from fastapi import FastAPI, UploadFile, File
from PIL import Image
import io, json
app = FastAPI()
model = load_dolphin_v2(weights_path="weights/dolphin_v2.pth", device="cuda:0")
@app.post("/parse")
async def parse_document(file: UploadFile = File(...)):
content = await file.read()
image = Image.open(io.BytesIO(content)).convert("RGB")
batch = preprocess_for_dolphin_v2([image])
with torch.no_grad():
raw = model(batch)
result = postprocess_dolphin_v2(raw)[0]
return result # FastAPI จะ serialize dict->JSON
ปรับใช้สิ่งนี้เบื้องหลัง Nginx หรือ endpoint GPU แบบ serverless และเชื่อมต่อกับระบบ MAM/DAM, Google Sheets, Notion หรือไปป์ไลน์ของคุณเอง
ประสิทธิภาพและเกณฑ์มาตรฐาน#
ประสิทธิภาพขึ้นอยู่กับ GPU ความละเอียดอินพุต และความซับซ้อนของเอกสาร โดยทั่วไป:
- Dolphin v2 มีเป้าหมายที่จะให้ความแม่นยำสูงกว่า v1 ในหน้าหลายคอลัมน์ แบบฟอร์ม ใบแจ้งหนี้ และการสแกนที่มีสัญญาณรบกวน
- เวลาแฝงต่อหน้าอาจใกล้เคียงกับเรียลไทม์บน GPU ที่ทันสมัยเพียงตัวเดียว โดยการประมวลผลแบบแบตช์จะเร่งความเร็ว PDF หลายหน้า
- เพื่อผลลัพธ์ที่ดีที่สุด ให้ปรับความละเอียดอินพุตให้สอดคล้องกับการตั้งค่าที่แนะนำของโมเดล (ดูการกำหนดค่า)
การเปรียบเทียบ:
- เมื่อเทียบกับการแยกวิเคราะห์ OCR + ตามกฎแบบเดิม Dolphin v2 จะลดฮิวริสติกที่เปราะบางและการทำความสะอาดด้วยตนเอง
- เมื่อเทียบกับสแต็กความเข้าใจเอกสารรุ่นเก่า Dolphin v2 เน้นที่เลย์เอาต์ ความเที่ยงตรงของโครงสร้าง และสคีมาที่สอดคล้องกัน
- รายงานของชุมชนระบุผลลัพธ์ที่แข่งขันได้เมื่อเทียบกับแนวทาง OCR-free ที่ทันสมัยในเกณฑ์มาตรฐานทั่วไป (เช่น งานสไตล์ FUNSD, SROIE, DocVQA) สำหรับตัวเลขและแผนภูมิที่แน่นอน โปรดดูส่วนเกณฑ์มาตรฐานและ model card ของ repository
เคล็ดลับเกณฑ์มาตรฐานที่ทำซ้ำได้:
- แก้ไขความละเอียดอินพุตและขนาดแบตช์
- ใช้ชุดเอกสารจริงของคุณที่เก็บไว้ (ไม่ใช่แค่ชุดข้อมูลสาธารณะ)
- วัดทั้งความแม่นยำ (ความเที่ยงตรงของข้อความ ความแม่นยำของโครงสร้าง) และต้นทุน (เวลาแฝง หน่วยความจำ GPU)
- บันทึกเวลาการประมวลผลภายหลัง มีความสำคัญในการผลิต
กรณีการใช้งานจริงสำหรับผู้สร้างสรรค์#
Dolphin v2 โดดเด่นในขั้นตอนการทำงานสร้างสรรค์ในชีวิตประจำวัน:
-
ผู้สร้างและตัดต่อวิดีโอ:
- แยกสคริปต์และรายการช็อตจาก PDF และสมุดบันทึกที่สแกน
- แปลงสตอรีบอร์ดเป็นข้อมูลที่มีโครงสร้าง ทำให้ง่ายต่อการวางแผนการแก้ไขและติดตามความต่อเนื่อง
- สร้างฉบับร่างคำบรรยายโดยอัตโนมัติจากสไลด์พร้อมบันทึกของผู้พูด
-
นักออกแบบและผู้กำกับศิลป์:
- แยกวิเคราะห์แนวทางแบรนด์เป็น Markdown ที่ค้นหาได้และข้อกำหนดส่วนประกอบ
- แยกจานสี กฎการพิมพ์ และข้อกำหนดกริดจาก PDF ที่มีสไตล์
-
นักเขียนและนักวิจัย:
- แปลงข้อมูลอ้างอิงที่สแกนเป็นบันทึกที่สะอาดและมีโครงสร้างพร้อมการอ้างอิงและคำพูด
- แยกวิเคราะห์ PDF ทางวิชาการหลายคอลัมน์เป็นส่วนต่างๆ ในขณะที่ยังคงลำดับการอ่านไว้
-
นักพากย์และโปรดิวเซอร์เสียง:
- เปลี่ยนชีตตัวละคร ชีตการโทร และด้านต่างๆ ให้เป็น CSV ที่ได้มาตรฐานสำหรับการค้นหาอย่างรวดเร็ว
- แยกคู่มือการออกเสียงและคำอธิบายประกอบเป็นพจนานุกรมที่มีโครงสร้าง
-
ฟรีแลนซ์และสตูดิโอ:
- ทำให้การแยกวิเคราะห์ใบแจ้งหนี้และใบเสร็จเป็นอัตโนมัติสำหรับการทำบัญชีและการเตรียมภาษี
- ประมวลผล NDAs และสัญญาเป็นสรุปคีย์-ค่า (คู่สัญญา วันที่ จำนวนเงิน)
ในทุกกรณี Dolphin v2 จะลดงานที่ต้องทำซ้ำๆ ด้วยตนเองและเพิ่มเวลาสำหรับการตัดสินใจสร้างสรรค์
รูปแบบการผสานรวมและแนวทางปฏิบัติที่ดีที่สุด#
- JSON-first: เก็บเอาต์พุต Dolphin v2 เป็น JSON ตลอดไปป์ไลน์ของคุณ แปลงเป็น CSV/Markdown เฉพาะในขั้นตอนสุดท้าย
- Human-in-the-loop: สำหรับเอกสารที่สำคัญ ให้เพิ่ม UI การตรวจสอบอย่างรวดเร็วที่บรรณาธิการสามารถอนุมัติหรือแก้ไขเอาต์พุตได้
- เทมเพลตและพรอมต์: หาก repo มีเทมเพลตสคีมาหรือพรอมต์ ให้ทำให้เป็นมาตรฐานในทีมของคุณเพื่อให้เอาต์พุตคาดการณ์ได้
- กฎการประมวลผลภายหลัง: เพิ่มกฎแสงเพื่อจัดการกับกรณีพิเศษ (เช่น การรวมบรรทัดที่แยก การแก้ไขข้อผิดพลาดในการสำรอง OCR)
- การปักหมุดเวอร์ชัน: ปักหมุดน้ำหนัก Dolphin v2 และเวอร์ชันการกำหนดค่าในการผลิตเพื่อหลีกเลี่ยงการเปลี่ยนแปลงที่ไม่คาดคิดระหว่างการอัปเดต
- ที่เก็บข้อมูล: บันทึกทั้งภาพดิบและเอาต์พุต JSON ของ Dolphin v2 เพื่อการตรวจสอบย้อนกลับและการประมวลผลใหม่ที่รวดเร็ว
การออกใบอนุญาต การกำกับดูแล และชุมชน#
- License: MIT License—อนุญาต เหมาะสำหรับการใช้งานเชิงพาณิชย์และโอเพนซอร์ส ดู LICENSE ใน https://github.com/bytedance/Dolphin
- ความโปร่งใส: ตรวจสอบ README, model card และ changelog ของ repo สำหรับข้อจำกัดปัจจุบันและการใช้งานที่ตั้งใจไว้
- การมีส่วนร่วม: โปรเจกต์ยินดีรับปัญหาและ pull request เปิดตั๋วสำหรับข้อบกพร่อง คำขอคุณสมบัติ หรือการปรับปรุงเอกสาร
- ชุมชน: การสนทนาและถามตอบมักเกิดขึ้นผ่าน GitHub Issues มองหาลิงก์ไปยังฟอรัมอย่างเป็นทางการหรือเธรดชุมชน Hugging Face ใน repo
ด้วยการนำ Dolphin v2 มาใช้ภายใต้ MIT ทีมต่างๆ สามารถผสานรวมเข้ากับไปป์ไลน์และผลิตภัณฑ์สร้างสรรค์ที่เป็นกรรมสิทธิ์ได้อย่างปลอดภัย
การแก้ไขปัญหา Dolphin v2#
ปัญหาและการแก้ไขทั่วไป:
-
หน่วยความจำไม่พอ (OOM) บน GPU:
- ลดความละเอียดอินพุตหรือขนาดแบตช์
- ใช้ความแม่นยำแบบผสม (AMP) หากรองรับ
- สลับไปใช้ CPU สำหรับงานขนาดเล็กหรือใช้ GPU ที่มี VRAM มากกว่า
-
Dependencies ที่ไม่ตรงกัน:
- ตรวจสอบให้แน่ใจว่าเวอร์ชัน PyTorch/CUDA ตรงกับไดรเวอร์และ OS ของคุณ
- สร้างสภาพแวดล้อมเสมือนที่สะอาดใหม่และติดตั้งข้อกำหนดใหม่
-
ลำดับการอ่านไม่ถูกต้อง:
- เปิดใช้งานหรือปรับการตั้งค่าที่รับรู้ถึงเลย์เอาต์ในการกำหนดค่า Dolphin v2
- ประมวลผลอินพุตล่วงหน้า: แก้ไขความเอียง เพิ่มคอนทราสต์ ครอบตัดขอบ
-
ข้อผิดพลาดในการแยกวิเคราะห์ตาราง:
- เพิ่มความละเอียดหน้าสำหรับเอกสารที่มีตารางหนาแน่น
- ตรวจสอบเกณฑ์การตรวจจับตารางในการประมวลผลภายหลัง
-
ปัญหาข้อความหลายภาษา:
- ลองใช้โหมด OCR-hybrid สำหรับภาษาเฉพาะ
- อัปเดตชุดภาษาและตรวจสอบให้แน่ใจว่ามีแบบอักษรสำหรับการเรนเดอร์
-
สคีมา JSON ที่ไม่สอดคล้องกันในแต่ละเวอร์ชัน:
- ปักหมุดเวอร์ชัน Dolphin v2 ของคุณในการผลิต
- เพิ่มขั้นตอนตัวแปลงเพื่อทำให้ฟิลด์เป็นมาตรฐานระหว่างเวอร์ชัน
-
ผลลัพธ์ที่ไม่ดีในภาพถ่ายหน้าจอหรือกระดาษมัน:
- หลีกเลี่ยงการสะท้อนแสง ถ่ายในแสงที่กระจาย
- ใช้แอปสแกนเพื่อเพิ่มคอนทราสต์และทำให้มุมมองแบนราบ
หากคุณติดขัด ให้ค้นหาปัญหาที่มีอยู่หรือเปิดปัญหาใหม่ที่ https://github.com/bytedance/Dolphin พร้อมตัวอย่างที่ทำซ้ำได้ขั้นต่ำ
ข้อควรพิจารณาด้านความปลอดภัยและความเป็นส่วนตัว#
- ประมวลผลเอกสารที่ละเอียดอ่อนในเครื่องเมื่อเป็นไปได้
- หากปรับใช้ Dolphin v2 เป็นบริการ ให้รักษาความปลอดภัย API (การตรวจสอบสิทธิ์ ขีดจำกัดอัตรา TLS)
- บันทึกเฉพาะสิ่งที่คุณต้องการ หลีกเลี่ยงการจัดเก็บเอกสารดิบเมื่อไม่จำเป็น
- นโยบายการเก็บรักษาเอกสารควรเป็นไปตามสัญญาและข้อบังคับของลูกค้าของคุณ
ข้อควรพิจารณาเกี่ยวกับ Roadmap#
แม้ว่า roadmap ที่แน่นอนจะมีการพัฒนา แต่คาดว่าจะมีการปรับปรุงอย่างต่อเนื่องใน:
- ความแข็งแกร่งหลายภาษาและการจัดการเอกสารที่ยาวนาน
- การเพิ่มประสิทธิภาพความเร็ว/หน่วยความจำ
- ความเข้าใจตาราง/แผนภูมิที่ดีขึ้นและการใส่คำบรรยายภาพ
- เครื่องมือนักพัฒนา: เดโมที่อัปเกรด UI annotator และชุดเกณฑ์มาตรฐาน
ดู repo สำหรับรุ่น แท็ก และรายการ changelog ที่เกี่ยวข้องกับ Dolphin v2
Call to Action#
- สำรวจโค้ดและเอกสาร: https://github.com/bytedance/Dolphin
- ลองใช้ตัวอย่าง: เรียกใช้ Dolphin v2 บนสองสามหน้าจากขั้นตอนการทำงานของคุณเองและวัดการประหยัดเวลา
- แบ่งปันความคิดเห็น: เปิดปัญหา เสนอคุณสมบัติ และมีส่วนร่วมในตัวอย่างที่ช่วยผู้สร้างสรรค์คนอื่นๆ
- ผสานรวม: ห่อ Dolphin v2 ใน API ขนาดเล็กและเสียบเข้ากับไปป์ไลน์เนื้อหาของคุณในสัปดาห์นี้
Dolphin v2 มีเป้าหมายที่จะทำให้ความเข้าใจเอกสารรู้สึกเหมือนเป็นส่วนประกอบพื้นฐานสำหรับทีมสร้างสรรค์ เริ่มต้นเล็กๆ ทำซ้ำอย่างรวดเร็ว และปล่อยให้เอาต์พุตที่มีโครงสร้างทำงานหนักในขณะที่คุณมุ่งเน้นไปที่งานฝีมือ
คำถามที่พบบ่อย#
Dolphin v2 เปิดตัวอย่างเป็นทางการและเป็นโอเพนซอร์สหรือไม่#
ใช่ Dolphin v2 มีอยู่ใน repository อย่างเป็นทางการที่ https://github.com/bytedance/Dolphin และเป็นโอเพนซอร์สภายใต้ MIT License ตรวจสอบรุ่นและแท็กของ repo สำหรับเวอร์ชันล่าสุด
ความแตกต่างหลักระหว่าง Dolphin v1 และ Dolphin v2 คืออะไร#
Dolphin v2 ปรับปรุงความแข็งแกร่งในโลกแห่งความเป็นจริง ความสอดคล้องของเอาต์พุตที่มีโครงสร้าง ความเข้าใจตาราง/แบบฟอร์ม และความง่ายในการปรับใช้ นอกจากนี้ยังเน้นการจัดการหลายหน้าที่ราบรื่นยิ่งขึ้นและไปป์ไลน์ JSON-first ที่เหมาะสำหรับการทำให้เป็นอัตโนมัติในการสร้างสรรค์
ฉันสามารถใช้ Dolphin v2 โดยไม่มี GPU ได้หรือไม่#
ได้ สำหรับปริมาณงานขนาดเล็ก การอนุมาน CPU เป็นไปได้ แต่ช้ากว่า สำหรับปริมาณงานการผลิตหรือ PDF ขนาดใหญ่ ขอแนะนำให้ใช้ GPU ที่ทันสมัย Dolphin v2 ได้รับประโยชน์อย่างมากจากการเร่งความเร็ว GPU
Dolphin v2 ต้องใช้ OCR หรือไม่#
ไม่จำเป็น Dolphin v2 รองรับโหมด OCR-free และสามารถผสานรวม OCR เป็นตัวสำรองได้ สำหรับกรณีที่ยาก (คอนทราสต์ต่ำ สคริปต์หายาก) การตั้งค่าไฮบริดอาจปรับปรุงความแม่นยำ
ฉันจะติดตั้ง Dolphin v2 ได้อย่างไร#
โคลน repo สร้างสภาพแวดล้อม Python ที่สะอาด ติดตั้งข้อกำหนด ดาวน์โหลดน้ำหนักโมเดล และเรียกใช้สคริปต์การอนุมานตัวอย่าง ขั้นตอนและคำสั่งที่แน่นอนมีการบันทึกไว้ใน Dolphin v2 repository
Dolphin v2 สามารถส่งออกรูปแบบไฟล์ใดได้บ้าง#
โดยทั่วไป Dolphin v2 จะส่งออก JSON ที่มีโครงสร้าง ซึ่งสามารถแปลงเป็น CSV, Markdown หรือ HTML ได้ หลายทีมเก็บ JSON ไว้ระหว่างการประมวลผลและแปลงเฉพาะในตอนท้าย
Dolphin v2 เหมาะสำหรับการใช้งานเชิงพาณิชย์หรือไม่#
ใช่ Dolphin v2 ได้รับการเผยแพร่ภายใต้ MIT License ซึ่งอนุญาตและเป็นมิตรกับการนำไปใช้ในเชิงพาณิชย์ ตรวจสอบไฟล์ LICENSE ใน repo สำหรับรายละเอียด
Dolphin v2 เปรียบเทียบกับทางเลือกอื่นอย่างไร#
Dolphin v2 มีเป้าหมายที่จะแข็งแกร่งและใช้งานได้จริงสำหรับขั้นตอนการทำงานสร้างสรรค์ในโลกแห่งความเป็นจริง เมื่อเทียบกับสแต็ก OCR-plus-rules จะช่วยลดฮิวริสติกที่เปราะบาง เมื่อเทียบกับตัวแยกวิเคราะห์เอกสารที่ทันสมัย Dolphin v2 มีความสามารถในการแข่งขันและมักจะผสานรวมได้ง่ายกว่า ประเมินบนเอกสารของคุณเองเพื่อการเปรียบเทียบที่เป็นธรรม
ฉันจะได้รับการสนับสนุนสำหรับ Dolphin v2 ได้ที่ไหน#
ใช้ GitHub Issues ใน repository อย่างเป็นทางการสำหรับรายงานข้อผิดพลาด คำถาม และคำขอคุณสมบัติ repo อาจเชื่อมโยงไปยัง Hugging Face model card หรือเธรดชุมชนด้วย
แนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้ Dolphin v2 ในการผลิตคืออะไร#
ปักหมุดเวอร์ชัน เรียกใช้ขั้นตอนการตรวจสอบสำหรับเอกสารที่สำคัญ บันทึกเมตริกประสิทธิภาพ และรักษาความปลอดภัย API ของคุณ เริ่มต้นด้วยบริการขนาดเล็กที่ส่งคืน JSON และปรับขนาดตามความต้องการปริมาณงานของคุณ



