D

DeepSeek-OCR : DeepSeek OCR PDF

DeepSeek-OCR은 복잡한 레이아웃, 필기, 차트 및 수학 공식에 대한 특수 기능을 갖춘 100개 이상의 언어로 이미지와 문서에서 텍스트를 정확하게 추출하는 고급 AI 기반 광학 문자 인식 모델입니다.

DeepSeek-OCR 프롬프트 가이드

다양한 문서 처리 작업을 위해 DeepSeek-OCR을 효과적으로 사용하는 방법 마스터하기

효과적인 OCR을 위한 핵심 요소

이미지 품질

최적의 텍스트 인식을 위해 이미지가 선명하고 조명이 밝으며 충분한 해상도(최소 300 DPI 권장)를 갖도록 하십시오.

Example: 텍스트와 배경 간의 대비가 좋은 고해상도 스캔 또는 사진을 업로드하십시오.

문서 유형 지정

모델이 인식 패턴을 최적화하는 데 도움이 되도록 처리 중인 문서 유형을 지정하십시오.

Example: 송장, 학술 논문, 손으로 쓴 메모 또는 테이블이 있는 양식을 처리하는지 여부를 나타내십시오.

언어 컨텍스트

모델이 언어를 자동 감지하지만 기본 언어를 지정하면 혼합 언어 문서의 정확도를 향상시킬 수 있습니다.

Example: 더 나은 결과를 위해 '영어 및 중국어 혼합 문서' 또는 '아랍어 기술 매뉴얼'을 지정하십시오.

출력 형식 기본 설정

선호하는 출력 형식을 정의하십시오 - 일반 텍스트, 서식이 유지된 Markdown 또는 구조화된 데이터 추출.

Example: '테이블 구조가 유지된 Markdown 형식' 또는 '강조 표시된 섹션에서만 텍스트 추출'을 요청하십시오.

프로 팁

효율성을 위한 일괄 처리

대규모 문서 세트의 경우 vLLM 일괄 처리를 사용하여 A100-40G GPU에서 ~2,500 토큰/초의 최적 처리량을 달성하십시오.

필기 텍스트 전처리

필기 문서의 경우 적절한 조명과 대비를 확인하십시오. 직선 정렬은 92% 이상의 인식 정확도를 향상시킵니다.

고급 기능 활용

복잡한 시각적 요소가 있는 과학 논문 및 기술 문서의 경우 차트 파싱 및 수식 인식 기능을 활용하십시오.

민감한 데이터에 대한 자체 호스팅

기밀 문서를 처리할 때 최대 개인 정보 보호 및 제어를 위해 자체 인프라에 배포하십시오.

기본 OCR vs 향상된 OCR 사용

기본 OCR

"이미지 업로드 → 텍스트 추출 → 일반 텍스트 출력"

DeepSeek를 사용한 향상된 OCR

"이미지 업로드 → 문서 유형 지정 → 구조 보존 활성화 → 테이블, 수식 및 서식이 그대로 유지된 Markdown 가져오기"

단일 언어

"영어 문서만 처리"

다국어 처리

"자동 감지 및 혼합 언어 지원으로 100개 이상의 언어로 된 문서를 동시에 처리"

텍스트만

"간단한 문서에서 일반 텍스트 추출"

종합적인 분석

"텍스트 추출, 차트 파싱, 수식 인식, 기하학적 도형 이해 및 완전한 문서 구조 보존"

DeepSeek-OCR 사용 방법

귀하의 요구에 맞는 여러 배포 옵션을 통해 DeepSeek-OCR을 시작하십시오.

1

배포 방법 선택

속도, 규모 및 개인 정보 보호에 대한 요구 사항에 따라 온라인 도구, Python API, vLLM 일괄 처리 또는 자체 호스팅 배포 중에서 선택하십시오.

2

문서 업로드

웹 인터페이스 또는 API를 통해 이미지 또는 PDF 파일을 업로드하십시오. 지원되는 형식에는 JPG, PNG, TIFF 및 여러 페이지가 있는 PDF가 포함됩니다.

3

처리 옵션 구성

문서 유형, 언어 기본 설정 및 출력 형식을 지정하십시오. 필요에 따라 차트 파싱 또는 수식 인식과 같은 고급 기능을 활성화하십시오.

4

처리 및 검토

처리를 위해 문서를 제출하십시오. 모델은 보존된 구조, 서식으로 텍스트를 추출하고 복잡한 요소를 자동으로 처리합니다.

5

결과 내보내기 또는 통합

선호하는 형식으로 추출된 텍스트를 다운로드하거나 자동화된 처리 파이프라인을 위해 API를 통해 워크플로에 직접 통합하십시오.

모범 사례

  • 최고의 정확도를 위해 고해상도 이미지(300 DPI 이상)를 사용하십시오.
  • 대규모 문서 세트의 경우 vLLM 일괄 처리를 사용하여 최대 처리량을 달성하십시오.
  • 서식이 지정된 문서, 테이블 또는 학술 논문으로 작업할 때 구조 보존을 활성화하십시오.
  • 민감하거나 기밀 문서를 처리할 때는 자체 호스팅 배포를 고려하십시오.
  • 특정 사용 사례에 대한 설정을 최적화하려면 먼저 샘플 문서로 테스트하십시오.

DeepSeek-OCR은 100개 이상의 언어를 지원하고 복잡한 레이아웃, 수식 및 차트가 있는 문서를 처리합니다. 프로덕션 워크로드의 경우 최적의 성능을 위해 Python API 또는 vLLM 일괄 처리를 사용하는 것이 좋습니다.

FAQ

자주 묻는 질문

DeepSeek-OCR에 대한 일반적인 질문과 모델을 최대한 활용하는 방법입니다.

문서 처리 방식을 혁신할 준비가 되셨습니까?

100개 이상의 언어 지원, 차트 파싱 및 복잡한 레이아웃 이해를 통해 DeepSeek-OCR의 고급 광학 문자 인식의 힘을 경험하십시오.

MIT 라이선스에 따라 사용 가능한 오픈 소스 모델입니다. 온라인으로 배포하거나 자체 호스팅하여 최대 개인 정보 보호 및 제어를 확보하십시오.