D

DeepSeek-OCR : DeepSeek OCR PDF

DeepSeek-OCR 是一款先进的 AI 驱动的光学字符识别模型,能够准确地从 100 多种语言的图像和文档中提取文本,并具有处理复杂布局、手写、图表和数学公式的专业功能。

主要特性

DeepSeek-OCR 是一款先进的光学字符识别模型,它利用尖端的人工智能技术和上下文光学压缩,高效地从图像和文档中提取文本。

多语言支持

能够以高精度识别 100 多种语言的文本,包括英语、中文、日语、韩语、阿拉伯语、西里尔语和印度语言。

高速处理

在单个 A100-40G GPU 上每天可处理超过 200,000 页,速度高达每秒 2,500 个 tokens。

高级 OCR 2.0 功能

超越了简单的文本提取,具备图表解析、复杂公式识别、几何图形理解和深度文档结构分析等功能。

复杂布局理解

能够准确地从具有复杂布局的文档(包括表格、表单)中提取文本,并在转换为 Markdown 时保留格式。

手写识别

通过先进的可视化 token 处理,在草书和印刷体手写识别方面均达到 92% 以上的准确率。

隐私优先处理

通过加密处理和 24 小时内自动删除来确保数据安全,并提供自托管部署选项。

用例

DeepSeek-OCR 在广泛的文档处理场景中表现出色,从简单的文本提取到复杂的学术和商业应用。

文档数字化

将印刷档案、历史文档和扫描书籍转换为可编辑的数字格式,并保留格式和结构。

业务自动化

自动从发票、收据、合同和表单中录入数据,以简化工作流程并减少手动处理时间。

学术研究

处理研究论文、教科书和科学文档,包括数学公式、化学方程式和复杂图表。

多语言内容管理

处理包含多种语言的文档,无需手动干预,非常适合国际组织和翻译服务。

从视觉内容中提取数据

从图表、图形、表格和技术插图中提取数据,用于分析和报告目的。

手写数字化

将手写笔记、表单和签名转换为数字文本,具有高精度,便于存档和搜索。

DeepSeek-OCR Prompt 指南

掌握有效使用 DeepSeek-OCR 处理各种文档任务的艺术

有效 OCR 的关键要素

图像质量

确保图像清晰、光线充足,并具有足够的分辨率(建议最低 300 DPI),以实现最佳的文本识别效果。

Example: 上传高分辨率的扫描件或照片,文本和背景之间具有良好的对比度。

文档类型指定

指定您正在处理的文档类型,以帮助模型优化识别模式。

Example: 指明您正在处理的是发票、学术论文、手写笔记还是带有表格的表单。

语言上下文

虽然模型可以自动检测语言,但指定主要语言可以提高混合语言文档的准确性。

Example: 指定 '英语和中文混合文档' 或 '阿拉伯语技术手册' 以获得更好的结果。

输出格式偏好

定义您首选的输出格式 - 纯文本、保留格式的 Markdown 或结构化数据提取。

Example: 请求 '保留表格结构的 Markdown 格式' 或 '仅从突出显示的部分提取文本'。

专业提示

批量处理以提高效率

对于大型文档集,使用 vLLM 批量处理,以在 A100-40G GPU 上实现约 2,500 个 tokens/秒的最佳吞吐量。

手写文本的预处理

对于手写文档,确保充足的光照和对比度。笔直对齐可以将识别准确率提高到 92% 以上。

利用高级功能

对于包含复杂视觉元素的科学论文和技术文档,利用图表解析和公式识别功能。

自托管处理敏感数据

在您自己的基础设施上部署,以便在处理机密文档时获得最大的隐私和控制。

基本 OCR 与增强 OCR 的比较

基本 OCR

"上传图像 → 提取文本 → 纯文本输出"

使用 DeepSeek 的增强 OCR

"上传图像 → 指定文档类型 → 启用结构保留 → 获取带有表格、公式和完整格式的 Markdown"

单语种

"仅处理英文文档"

多语种处理

"同时处理 100 多种语言的文档,具有自动检测和混合语言支持"

仅文本

"从简单文档中提取纯文本"

全面分析

"提取文本、解析图表、识别公式、理解几何图形并保留完整的文档结构"

如何使用 DeepSeek-OCR

通过多种部署选项开始使用 DeepSeek-OCR,这些选项根据您的需求量身定制。

1

选择您的部署方法

根据您对速度、规模和隐私的要求,从在线工具、Python API、vLLM 批量处理或自托管部署中进行选择。

2

上传您的文档

通过 Web 界面或 API 上传图像或 PDF 文件。支持的格式包括 JPG、PNG、TIFF 和多页 PDF。

3

配置处理选项

指定文档类型、语言偏好和输出格式。根据需要启用高级功能,如图表解析或公式识别。

4

处理和审查

提交您的文档进行处理。该模型将提取文本,并保留结构、格式,并自动处理复杂元素。

5

导出或集成结果

以您喜欢的格式下载提取的文本,或通过 API 直接集成到您的工作流程中,以实现自动处理管道。

最佳实践

  • 使用高分辨率图像(300 DPI 或更高)以获得最佳准确性
  • 对于大型文档集,使用 vLLM 批量处理以实现最大吞吐量
  • 处理格式化文档、表格或学术论文时,启用结构保留
  • 考虑自托管部署以处理敏感或机密文档
  • 首先使用示例文档进行测试,以优化特定用例的设置

DeepSeek-OCR 支持 100 多种语言,并处理具有复杂布局、公式和图表的文档。对于生产工作负载,请考虑使用 Python API 或 vLLM 批量处理以获得最佳性能。

FAQ

常见问题解答

关于 DeepSeek-OCR 以及如何充分利用该模型的常见问题。

准备好改变您的文档处理方式了吗?

体验 DeepSeek-OCR 先进的光学字符识别的强大功能,它支持 100 多种语言、图表解析和复杂布局理解。

开源模型,在 MIT 许可证下可用。在线部署或自托管以获得最大的隐私和控制。