D

DeepSeek-OCR : DeepSeek OCR PDF

DeepSeek-OCR adalah model pengenalan karakter optik bertenaga AI canggih yang secara akurat mengekstrak teks dari gambar dan dokumen dalam 100+ bahasa, dengan kemampuan khusus untuk tata letak kompleks, tulisan tangan, bagan, dan rumus matematika.

Panduan Prompt untuk DeepSeek-OCR

Kuasai seni menggunakan DeepSeek-OCR secara efektif untuk berbagai tugas pemrosesan dokumen

Elemen Kunci untuk OCR Efektif

Kualitas Gambar

Pastikan gambar jelas, cukup terang, dan memiliki resolusi yang memadai (minimum 300 DPI direkomendasikan) untuk pengenalan teks yang optimal.

Example: Unggah pindaian atau foto beresolusi tinggi dengan kontras yang baik antara teks dan latar belakang.

Spesifikasi Jenis Dokumen

Tentukan jenis dokumen yang Anda proses untuk membantu model mengoptimalkan pola pengenalan.

Example: Tunjukkan apakah Anda memproses faktur, makalah akademis, catatan tulisan tangan, atau formulir dengan tabel.

Konteks Bahasa

Meskipun model mendeteksi bahasa secara otomatis, menentukan bahasa utama dapat meningkatkan akurasi untuk dokumen dengan campuran bahasa.

Example: Tentukan 'Dokumen campuran bahasa Inggris dan Mandarin' atau 'Manual teknis bahasa Arab' untuk hasil yang lebih baik.

Preferensi Format Output

Tentukan format output pilihan Anda - teks biasa, Markdown dengan pemformatan yang dipertahankan, atau ekstraksi data terstruktur.

Example: Minta 'Format Markdown dengan struktur tabel yang dipertahankan' atau 'Ekstrak teks hanya dari bagian yang disorot'.

Tips Pro

Pemrosesan Batch untuk Efisiensi

Gunakan pemrosesan batch vLLM untuk set dokumen besar untuk mencapai throughput optimal ~2.500 token/dtk pada GPU A100-40G.

Pra-pemrosesan untuk Teks Tulisan Tangan

Untuk dokumen tulisan tangan, pastikan pencahayaan dan kontras yang memadai. Penjajaran lurus meningkatkan akurasi pengenalan di atas 92%.

Manfaatkan Fitur Tingkat Lanjut

Manfaatkan kemampuan penguraian bagan dan pengenalan rumus untuk makalah ilmiah dan dokumen teknis dengan elemen visual kompleks.

Hosting Sendiri untuk Data Sensitif

Terapkan di infrastruktur Anda sendiri untuk privasi dan kontrol maksimum saat memproses dokumen rahasia.

Penggunaan OCR Dasar vs Tingkat Lanjut

OCR Dasar

"Unggah gambar → Ekstrak teks → Output teks biasa"

OCR Tingkat Lanjut dengan DeepSeek

"Unggah gambar → Tentukan jenis dokumen → Aktifkan pelestarian struktur → Dapatkan Markdown dengan tabel, rumus, dan pemformatan utuh"

Bahasa Tunggal

"Hanya memproses dokumen bahasa Inggris"

Pemrosesan Multibahasa

"Memproses dokumen dalam 100+ bahasa secara bersamaan dengan deteksi otomatis dan dukungan campuran bahasa"

Teks Saja

"Ekstrak teks biasa dari dokumen sederhana"

Analisis Komprehensif

"Ekstrak teks, uraikan bagan, kenali rumus, pahami figur geometris, dan pertahankan struktur dokumen lengkap"

Cara Menggunakan DeepSeek-OCR

Mulai menggunakan DeepSeek-OCR melalui beberapa opsi penerapan yang disesuaikan dengan kebutuhan Anda.

1

Pilih Metode Penerapan Anda

Pilih dari alat online, Python API, pemrosesan batch vLLM, atau penerapan yang dihosting sendiri berdasarkan kebutuhan Anda untuk kecepatan, skala, dan privasi.

2

Unggah Dokumen Anda

Unggah gambar atau file PDF melalui antarmuka web atau API. Format yang didukung termasuk JPG, PNG, TIFF, dan PDF dengan banyak halaman.

3

Konfigurasikan Opsi Pemrosesan

Tentukan jenis dokumen, preferensi bahasa, dan format output. Aktifkan fitur tingkat lanjut seperti penguraian bagan atau pengenalan rumus sesuai kebutuhan.

4

Proses dan Tinjau

Kirim dokumen Anda untuk diproses. Model akan mengekstrak teks dengan struktur, pemformatan yang dipertahankan, dan menangani elemen kompleks secara otomatis.

5

Ekspor atau Integrasikan Hasil

Unduh teks yang diekstrak dalam format pilihan Anda atau integrasikan langsung ke dalam alur kerja Anda melalui API untuk saluran pemrosesan otomatis.

Praktik Terbaik

  • Gunakan gambar beresolusi tinggi (300 DPI atau lebih tinggi) untuk akurasi terbaik
  • Untuk set dokumen besar, gunakan pemrosesan batch vLLM untuk mencapai throughput maksimum
  • Aktifkan pelestarian struktur saat bekerja dengan dokumen, tabel, atau makalah akademis yang diformat
  • Pertimbangkan penerapan yang dihosting sendiri untuk memproses dokumen sensitif atau rahasia
  • Uji dengan contoh dokumen terlebih dahulu untuk mengoptimalkan pengaturan untuk kasus penggunaan spesifik Anda

DeepSeek-OCR mendukung lebih dari 100 bahasa dan memproses dokumen dengan tata letak, rumus, dan bagan yang kompleks. Untuk beban kerja produksi, pertimbangkan untuk menggunakan Python API atau pemrosesan batch vLLM untuk kinerja optimal.

FAQ

Pertanyaan yang Sering Diajukan

Pertanyaan umum tentang DeepSeek-OCR dan cara memaksimalkan model.

Siap Mengubah Pemrosesan Dokumen Anda?

Rasakan kekuatan pengenalan karakter optik canggih DeepSeek-OCR dengan dukungan untuk 100+ bahasa, penguraian bagan, dan pemahaman tata letak yang kompleks.

Model sumber terbuka tersedia di bawah Lisensi MIT. Terapkan online atau hosting sendiri untuk privasi dan kontrol maksimum.