D

DeepSeek-OCR : DeepSeek OCR PDF

DeepSeek-OCR 是一款由 AI 驅動的先進光學字元辨識模型,能夠準確地從 100 多種語言的圖像和文件中提取文字,並具有處理複雜版面、手寫文字、圖表和數學公式的專門功能。

主要功能

DeepSeek-OCR 是一款先進的光學字元辨識模型,它利用最先進的 AI 技術和上下文光學壓縮,高效地從圖像和文件中提取文字。

多語言支援

能夠以高準確度辨識超過 100 種語言的文字,包括英語、中文、日語、韓語、阿拉伯語、西里爾字母和印度語言。

高速處理

在單個 A100-40G GPU 上,每天可處理超過 20 萬頁,速度高達每秒 2,500 個 tokens。

進階 OCR 2.0 功能

不僅僅是簡單的文字提取,還包括圖表解析、複雜公式識別、幾何圖形理解和深度文件結構分析。

複雜版面理解

能夠準確地從具有複雜版面的文件中提取文字,包括表格、表單,並在轉換為 Markdown 時保留格式。

手寫辨識

透過先進的視覺 token 處理,在草書和印刷體手寫文字上都能達到超過 92% 的準確度。

隱私優先處理

透過加密處理和 24 小時內自動刪除來確保資料安全,並提供自託管部署選項。

使用案例

DeepSeek-OCR 在廣泛的文件處理場景中表現出色,從簡單的文字提取到複雜的學術和商業應用。

文件數位化

將印刷檔案、歷史文件和掃描書籍轉換為可編輯的數位格式,並保留格式和結構。

業務自動化

自動化發票、收據、合約和表單的資料輸入,以簡化工作流程並減少手動處理時間。

學術研究

處理研究論文、教科書和科學文件,包括數學公式、化學方程式和複雜圖表。

多語言內容管理

處理包含多種語言的文件,無需手動干預,非常適合國際組織和翻譯服務。

從視覺資料中提取資料

從圖表、圖形、表格和技術插圖中提取資料,用於分析和報告目的。

手寫數位化

將手寫筆記、表單和簽名轉換為數位文字,具有高準確度,以便於存檔和搜尋。

DeepSeek-OCR 的 Prompt 指南

掌握有效使用 DeepSeek-OCR 處理各種文件任務的技巧

有效 OCR 的關鍵要素

圖像品質

確保圖像清晰、光線充足,並具有足夠的解析度(建議最低 300 DPI),以獲得最佳的文字辨識效果。

Example: 上傳高解析度的掃描件或照片,並確保文字和背景之間有良好的對比度。

文件類型指定

指定您正在處理的文件類型,以幫助模型優化辨識模式。

Example: 指出您正在處理的是發票、學術論文、手寫筆記還是帶有表格的表單。

語言上下文

雖然模型可以自動偵測語言,但指定主要語言可以提高混合語言文件的準確性。

Example: 指定 '英語和中文混合文件' 或 '阿拉伯語技術手冊' 以獲得更好的結果。

輸出格式偏好

定義您偏好的輸出格式 - 純文字、保留格式的 Markdown 或結構化資料提取。

Example: 請求 '保留表格結構的 Markdown 格式' 或 '僅從突出顯示的部分提取文字'。

專業提示

批次處理以提高效率

對於大型文件集,使用 vLLM 批次處理,以在 A100-40G GPU 上實現約 2,500 個 tokens/秒的最佳吞吐量。

手寫文字的預處理

對於手寫文件,確保充足的光線和對比度。筆直的對齊方式可將辨識準確度提高到 92% 以上。

利用進階功能

對於包含複雜視覺元素的科學論文和技術文件,利用圖表解析和公式識別功能。

自託管以保護敏感資料

在您自己的基礎設施上部署,以便在處理機密文件時獲得最大的隱私和控制權。

基本 OCR 與增強型 OCR 的比較

基本 OCR

"上傳圖像 → 提取文字 → 純文字輸出"

使用 DeepSeek 的增強型 OCR

"上傳圖像 → 指定文件類型 → 啟用結構保留 → 獲得帶有表格、公式和完整格式的 Markdown"

單一語言

"僅處理英文文件"

多語言處理

"同時處理 100 多種語言的文件,具有自動偵測和混合語言支援"

僅限文字

"從簡單文件中提取純文字"

全面分析

"提取文字、解析圖表、識別公式、理解幾何圖形,並保留完整的文件結構"

如何使用 DeepSeek-OCR

透過多種針對您需求量身定制的部署選項開始使用 DeepSeek-OCR。

1

選擇您的部署方法

根據您對速度、規模和隱私的要求,從線上工具、Python API、vLLM 批次處理或自託管部署中進行選擇。

2

上傳您的文件

透過 Web 介面或 API 上傳圖像或 PDF 文件。支援的格式包括 JPG、PNG、TIFF 和多頁 PDF。

3

配置處理選項

指定文件類型、語言偏好和輸出格式。根據需要啟用圖表解析或公式識別等進階功能。

4

處理和審閱

提交您的文件進行處理。模型將提取具有保留結構、格式的文字,並自動處理複雜元素。

5

匯出或整合結果

以您偏好的格式下載提取的文字,或透過 API 直接整合到您的工作流程中,以實現自動化處理管道。

最佳實踐

  • 使用高解析度圖像(300 DPI 或更高)以獲得最佳準確度
  • 對於大型文件集,使用 vLLM 批次處理以實現最大吞吐量
  • 處理格式化文件、表格或學術論文時,啟用結構保留
  • 考慮自託管部署以處理敏感或機密文件
  • 首先使用範例文件進行測試,以針對您的特定使用案例優化設定

DeepSeek-OCR 支援 100 多種語言,並處理具有複雜版面、公式和圖表的文件。對於生產工作負載,請考慮使用 Python API 或 vLLM 批次處理以獲得最佳效能。

FAQ

常見問題解答

關於 DeepSeek-OCR 以及如何充分利用該模型的常見問題。

準備好改變您的文件處理方式了嗎?

體驗 DeepSeek-OCR 先進的光學字元辨識的強大功能,它支援 100 多種語言、圖表解析和複雜的版面理解。

開源模型,在 MIT 許可下提供。線上部署或自託管以獲得最大的隱私和控制權。