D

DeepSeek-OCR : DeepSeek OCR PDF

DeepSeek-OCR 是一款先进的 AI 驱动的光学字符识别模型,能够准确地从 100 多种语言的图像和文档中提取文本,并具有处理复杂布局、手写、图表和数学公式的专业功能。

DeepSeek-OCR Prompt 指南

掌握有效使用 DeepSeek-OCR 处理各种文档任务的艺术

有效 OCR 的关键要素

图像质量

确保图像清晰、光线充足,并具有足够的分辨率(建议最低 300 DPI),以实现最佳的文本识别效果。

Example: 上传高分辨率的扫描件或照片,文本和背景之间具有良好的对比度。

文档类型指定

指定您正在处理的文档类型,以帮助模型优化识别模式。

Example: 指明您正在处理的是发票、学术论文、手写笔记还是带有表格的表单。

语言上下文

虽然模型可以自动检测语言,但指定主要语言可以提高混合语言文档的准确性。

Example: 指定 '英语和中文混合文档' 或 '阿拉伯语技术手册' 以获得更好的结果。

输出格式偏好

定义您首选的输出格式 - 纯文本、保留格式的 Markdown 或结构化数据提取。

Example: 请求 '保留表格结构的 Markdown 格式' 或 '仅从突出显示的部分提取文本'。

专业提示

批量处理以提高效率

对于大型文档集,使用 vLLM 批量处理,以在 A100-40G GPU 上实现约 2,500 个 tokens/秒的最佳吞吐量。

手写文本的预处理

对于手写文档,确保充足的光照和对比度。笔直对齐可以将识别准确率提高到 92% 以上。

利用高级功能

对于包含复杂视觉元素的科学论文和技术文档,利用图表解析和公式识别功能。

自托管处理敏感数据

在您自己的基础设施上部署,以便在处理机密文档时获得最大的隐私和控制。

基本 OCR 与增强 OCR 的比较

基本 OCR

"上传图像 → 提取文本 → 纯文本输出"

使用 DeepSeek 的增强 OCR

"上传图像 → 指定文档类型 → 启用结构保留 → 获取带有表格、公式和完整格式的 Markdown"

单语种

"仅处理英文文档"

多语种处理

"同时处理 100 多种语言的文档,具有自动检测和混合语言支持"

仅文本

"从简单文档中提取纯文本"

全面分析

"提取文本、解析图表、识别公式、理解几何图形并保留完整的文档结构"

如何使用 DeepSeek-OCR

通过多种部署选项开始使用 DeepSeek-OCR,这些选项根据您的需求量身定制。

1

选择您的部署方法

根据您对速度、规模和隐私的要求,从在线工具、Python API、vLLM 批量处理或自托管部署中进行选择。

2

上传您的文档

通过 Web 界面或 API 上传图像或 PDF 文件。支持的格式包括 JPG、PNG、TIFF 和多页 PDF。

3

配置处理选项

指定文档类型、语言偏好和输出格式。根据需要启用高级功能,如图表解析或公式识别。

4

处理和审查

提交您的文档进行处理。该模型将提取文本,并保留结构、格式,并自动处理复杂元素。

5

导出或集成结果

以您喜欢的格式下载提取的文本,或通过 API 直接集成到您的工作流程中,以实现自动处理管道。

最佳实践

  • 使用高分辨率图像(300 DPI 或更高)以获得最佳准确性
  • 对于大型文档集,使用 vLLM 批量处理以实现最大吞吐量
  • 处理格式化文档、表格或学术论文时,启用结构保留
  • 考虑自托管部署以处理敏感或机密文档
  • 首先使用示例文档进行测试,以优化特定用例的设置

DeepSeek-OCR 支持 100 多种语言,并处理具有复杂布局、公式和图表的文档。对于生产工作负载,请考虑使用 Python API 或 vLLM 批量处理以获得最佳性能。

FAQ

常见问题解答

关于 DeepSeek-OCR 以及如何充分利用该模型的常见问题。

准备好改变您的文档处理方式了吗?

体验 DeepSeek-OCR 先进的光学字符识别的强大功能,它支持 100 多种语言、图表解析和复杂布局理解。

开源模型,在 MIT 许可证下可用。在线部署或自托管以获得最大的隐私和控制。