DeepSeek OCR 비전 인코더
8천만 파라미터의 창형 SAM과 3억 파라미터 CLIP-Large가 국소 글리프 디테일과 전체 레이아웃을 정렬해, 법률·금융·과학 분야의 고밀도 PDF에서도 높은 충실도를 유지합니다.
Tiny → Base → Large → Gundam 단계는 낮은 토큰 수를 유지하면서 시각적 충실도를 확장하는 DeepSeek OCR의 특성을 보여줍니다.
DeepSeek OCR은 페이지 이미지를 컴팩트한 비전 토큰으로 압축한 뒤, 대용량 전문가 혼합 언어 모델로 디코딩하는 두 단계의 Transformer 기반 문서 AI입니다. 1단계에서는 창 구조의 SAM 비전 트랜스포머와 고밀도 CLIP-Large 인코더, 16배 컨볼루션 압축기를 결합합니다. 2단계에서는 토큰당 약 5억 7천만 파라미터가 활성화되는 DeepSeek-3B-MoE 디코더로 텍스트·HTML·도면 주석을 최소한의 손실로 복원합니다.
약 3천만 페이지의 실제 PDF와 합성 차트·수식·도면으로 학습되어 레이아웃 구조, 테이블, 화학식(SMILES)과 기하 작업을 그대로 보존합니다. CLIP 계열의 멀티모달 역량 덕분에 강한 압축 이후에도 캡션과 객체 정렬이 무너지지 않습니다.
1024×1024 해상도의 페이지를 256개 토큰으로 줄여, 기존 OCR 파이프라인이 처리하기 어려운 장문 문서를 수집하면서도 전역 의미를 유지하고 연산 부담을 크게 낮춥니다.
라틴 문자, CJK, 키릴 문자, 과학 기호 등 100여 개 언어를 지원해 글로벌 디지털화와 데이터 생성 프로젝트를 뒷받침합니다.
8천만 파라미터의 창형 SAM과 3억 파라미터 CLIP-Large가 국소 글리프 디테일과 전체 레이아웃을 정렬해, 법률·금융·과학 분야의 고밀도 PDF에서도 높은 충실도를 유지합니다.
Tiny(64개 토큰)부터 Gundam(다중 뷰포트 타일링)까지 DeepSeek OCR을 사용하면 송장, 청사진 및 대형 스캔의 속도와 충실도 간 정밀 조정이 가능합니다.
HTML 테이블, 마크다운 차트, SMILES 화학식, 기하 주석을 생성해 수동 재구성 없이 분석 파이프라인에 바로 투입할 수 있습니다.
MIT 라이선스 모델 가중치로 온프레미스 운영이 가능하며, 호스티드 API 사용 시에도 DeepSeek 중국 인프라에 대한 규제 리스크를 줄일 수 있습니다.
래스터화된 페이지(최대 1280×1280)는 4096개의 패치로 분할되고 16×는 256–400 토큰으로 압축됩니다.로컬 창은 문자 모양의 정확성을 보장하는 반면 CLIP-Large는 페이지 의미를 유지합니다.
전문가 혼합 디코더는 토큰당 최대 5억 7천만 개의 매개변수를 활성화하여 텍스트, 레이아웃 태그 및 캡션을 재구성합니다.FlashAttention 및 CUDA 최적화는 GPU 처리량을 유지합니다.
CLIP 사전 훈련을 통해 DeepSeek OCR은 텍스트 요약을 다이어그램, 차트 및 그림과 정렬할 수 있습니다. 이는 과학 문서 및 데이터 시각화 핸드오프에 필수적입니다.
디코딩 파이프라인으로 압축하면 컨텍스트가 그대로 유지됩니다.
1. 고해상도 PDF 페이지(640~1280px)
SAM 패치 추출
2. 64-400개의 토큰으로 16× 컨벌루션 압축
상황별 광학 압축
3. DeepSeek OCR MoE 디코딩(~570M 활성)
FlashAttention 가속
4. 구조화된 HTML, 마크다운 또는 캡션 출력
레이아웃 보존 결과
벤치마크 연구에 따르면 DeepSeek OCR은 낮은 토큰 예산을 유지하면서 구조화된 문서에 대해 최첨단 정확성을 제공합니다.
| OCR 시스템 | 정확도 스냅샷 | 속도 / 처리량 | 핵심강점 | 전개 | 
|---|---|---|---|---|
| DeepSeek OCR | 10× 압축에서 ~97% 정확히 일치 | NVIDIA A100당 최대 200,000페이지/일 | 레이아웃이 풍부한 OCR, 표, 수식, 다이어그램, 다국어 | 오픈 소스(MIT);로컬 GPU 또는 DeepSeek API | 
| 구글 클라우드 비전 | 혼합 벤치마크에서 ~98% | 탄력적인 클라우드 처리량 | 기업 지원, 다국어 API | 독점적인 종량제 API | 
| AWS 텍스트랙트 | 양식의 경우 ~97~99% | 관리형 클라우드 확장 | JSON 출력을 통한 송장 및 양식 추출 | 독점적인 종량제 API | 
| Azure OCR | 깔끔하게 입력된 텍스트의 경우 ~99.8% | Azure 생태계 통합 | 인쇄된 페이지에 강력합니다.필기 차이 | 독점적인 종량제 API | 
| 테서랙트 OSS | 스캔에 따라 ~90~95% | 로컬 CPU/GPU | 오픈 소스, 필기 친화적 | 오픈 소스(Apache 2.0) | 
출처: Fox 압축 벤치마크, OmniDocBench, AI 다중 정확도 검토, DeepSeek 문서.
DeepSeek OCR GitHub 저장소를 복제하고, 6.7GB safetensors 체크포인트를 다운로드하고, FlashAttention으로 PyTorch 2.6+를 구성하세요.기본 모드는 8~10GB GPU에서 실행되는 반면 건담 타일링은 40GB A100의 이점을 얻습니다.
DeepSeek의 OpenAI 호환 API 엔드포인트를 활용하여 이미지를 제출하고 구조화된 텍스트를 수신하세요.가격은 플랫폼의 토큰 청구를 반영합니다(캐시 적중의 경우 백만 입력 토큰당 ~$0.028).
OCR 출력을 JSON으로 변환하고, SMILES 문자열을 화학정보학 파이프라인에 연결하거나, 이중 언어 출판을 위한 자동 캡션 다이어그램을 연결하는 등 모두 DeepSeek OCR의 구조화된 결과를 사용합니다.
다운스트림 검색, 요약 및 지식 그래프 파이프라인을 위해 페이지당 수천 개의 단어를 컴팩트 토큰으로 압축합니다.
과학적 분석을 지원하기 위해 시각적 자산에서 기하학적 추론, 엔지니어링 주석 및 화학적 미소를 추출합니다.
100개 이상의 언어에 대한 글로벌 코퍼스를 구축하고 책이나 설문조사를 스캔하여 다운스트림 언어 모델을 위한 교육 데이터를 생성합니다.
송장, 계약서 또는 양식 처리 플랫폼에 삽입하여 자동화 가능한 레이아웃 인식 JSON 및 HTML을 내보냅니다.
아키텍처 다이어그램, 벤치마크 대시보드, 실제 변환 등 DeepSeek OCR의 실제 동작을 살펴보세요.고해상도 보기를 열려면 아무 프레임이나 클릭하세요.
            
            
            
            20배 압축에서는 정확도가 ~60%로 떨어집니다.마이크로텍스트나 조밀한 테이블이 있는 경우 대형 또는 건담 모드를 선택하세요.
정밀한 벡터 차트는 여전히 까다롭습니다.CAD 정밀도가 필수적인 경우 벡터 기반 파서와 결합합니다.
주로 인쇄된 텍스트에 대한 교육을 받았습니다.필기체가 많은 작업 부하를 위한 필기 OCR 도구로 보완하세요.
실시간 처리량에는 최신 GPU가 필요합니다.일괄 처리 또는 DeepSeek의 관리형 API는 컴퓨팅 요구를 원활하게 할 수 있습니다.
최대 6.7GB 세이프텐서 체크포인트를 다운로드하고 라이선스 비용 없이 로컬에서 DeepSeek OCR을 운영하여 규정 준수 표준에 맞게 워크플로를 사용자 정의하세요.
호스팅된 액세스는 DeepSeek의 토큰 가격(캐시 적중 시 입력 토큰 백만 개당 ~$0.028)을 따릅니다.압축 모드와 문서 볼륨을 중심으로 예산을 계획하세요.
하드웨어 계획: 단일 A100(~200,000페이지/일)은 기업 대기열을 구동할 수 있는 반면, 20노드 × 8개의 A100은 대규모 디지털화를 위해 최대 3,300만 페이지/일에 도달합니다.
DeepSeek OCR은 페이지를 패치로 분할하고 16배 컨벌루션 다운샘플링을 적용하며 64~400개의 비전 토큰만 MoE 디코더에 전달하여 컨텍스트 크기를 10배로 줄이면서 레이아웃 큐를 유지합니다.
NVIDIA A100(40GB)은 최대 처리량(~200,000페이지/일)을 제공하는 반면, ≥8GB VRAM을 갖춘 RTX 30 시리즈 카드는 중간 로드의 기본 모드를 처리할 수 있습니다.
필기는 핵심 초점이 아닙니다.특수 필기체 OCR 도구에 비해 성능은 여전히 제한적입니다.필요한 경우 DeepSeek OCR을 필기 엔진과 페어링하세요.
예.테스트에서는 테이블 및 차트 구조에 대한 거의 무손실 HTML/마크다운 재생을 보여 수동 정리 없이 분석 파이프라인을 활성화합니다.
DeepSeek OCR은 광범위한 실제 및 합성 교육 데이터 덕분에 라틴어, CJK, 키릴 문자 및 과학적 표기법을 포함하여 약 100개 언어를 포괄합니다.
DeepSeek OCR은 프롬프트에 따라 일반 텍스트, HTML, Markdown, 구조화된 JSON, SMILES 화학 문자열 및 상황별 캡션을 내보낼 수 있습니다.
로컬 배포는 MIT 라이선스에 따라 데이터를 온프레미스에 유지합니다.DeepSeek의 API를 사용하는 경우 회사의 클라우드 인프라 조사에 따른 규정 준수 지침을 참조하세요.
훨씬 적은 수의 비전 토큰을 사용하면서 복잡한 문서에서 클라우드 경쟁사와 일치하거나 능가하므로 GPU 제한 작업에 이상적입니다.
Hugging Face Spaces, 커뮤니티 노트북 및 "멋진 DeepSeek" 저장소에서는 데모를 선보이며 SDK는 Adobe, Figma 및 Python 클라이언트와 통합됩니다.
예.대화를 이미지로 저장하여 LLM 컨텍스트 창을 확장하고 필요할 때 DeepSeek OCR이 텍스트를 재구성하도록 합니다.
전 세계의 실무자와 연구자들은 DeepSeek OCR의 컨텍스트 광학 압축이 문서 작업 흐름을 어떻게 변화시키는지 공유하고 있습니다.X(Twitter)에서 캡처한 선별된 반응 피드를 살펴보세요.
이번에는 커다란 푸른 고래가 야생의 모습으로 돌아왔습니다!
—언와인드 AI(@unwind_ai_) 2025년 10월 21일
DeepSeek은 비전 토큰을 사용하여 텍스트를 10배까지 압축할 수 있는 OCR 모델을 구축했습니다.
설명하겠습니다.
그들은 핵심 통찰력을 가지고 있었습니다. 텍스트가 포함된 그림은 원시 텍스트 자체보다 표현하는 데 훨씬 적은 토큰이 필요합니다.
지금,… pic.twitter.com/tIYtq437qX
DeepSeek-OCR은 놀랍습니다.긴 텍스트 컨텍스트를 이미지 토큰으로 변환함으로써 약 10배 압축에서도 품질 저하가 거의 발생하지 않았으며, 20배 압축에서도 60%의 정확도를 유지했습니다.이를 통해 LLM의 긴 컨텍스트 처리를 획기적으로 향상시킬 수 있습니다.일반 OCR로도 매우 좋은 것 같습니다. pic.twitter.com/Ya6ae3Mbwz
— 이시카와 요타(@ytiskw) 2025년 10월 20일
deepseek-ocr이라는 이름은 너무 은밀합니다. 깊이 이해하지 못하면 그저 또 다른 ORC 모델이라고 생각하게 될 것입니다. 그러나 이 모델은 정보 압축률의 10배를 달성합니다. 하나의 이미지 토큰은 10개의 텍스트 토큰과 동일할 수 있습니다. 이것은 큰 일이고 hn에서 폭발했습니다.Deepseek은 또한 시간이 지남에 따라 인간의 기억력이 감소하는 것을 시뮬레이션하기 위해 이미지 흐림 정도를 사용할 것을 제안했습니다. 동일한 사진을 읽을 때 해상도가 다른 전문가 모델을 호출할 수 있습니다. https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— 다투(@Datou) 2025년 10월 20일
폐쇄형 AI 연구실과 달리 DeepSeek은 진정한 개방형 연구임을 증명합니다.
—빈두 레디(@bindureddy) 2025년 10월 21일
OCR 논문은 단락을 픽셀로 처리하며 기존 LLM보다 60배 더 효율적입니다.
소형 초효율 모델이 미래입니다 pic.twitter.com/RY7PJoeH3E
DeepSeek OCR!오픈소스는 계속해서 주는 선물입니다!엄청난!저는 이 훌륭한 새 오픈 소스 모델을 사용하여 400페이지의 PDF를 마크다운으로 변환했습니다.4분도 안걸렸어요! pic.twitter.com/QuxcDhVlPG
—트리스탄 베렌스 박사(@DrTBehrens) 2025년 10월 20일
🚀 DeepSeek-OCR — OCR의 새로운 개척지 @deepseek_ai LLM에 대한 광학 컨텍스트 압축을 탐색하는 는 vLLM ⚡(A100-40G에서 최대 2500개 토큰/초)에서 엄청나게 빠르게 실행됩니다. - 0일차 모델 지원을 위해 vllm==0.8.5로 구동됩니다.
—vLLM(@vllm_project) 2025년 10월 20일
🧠 시각적 컨텍스트를 최대 20배까지 압축하면서… pic.twitter.com/bx3d7LnfaR
공식 PDF를 다운로드하여 광 압축 패러다임, 아키텍처 및 벤치마크에 대해 자세히 알아보세요.DeepSeek OCR 팀에서 직접 자세한 실험, 절제 및 배포 지침을 살펴보려면 오프라인으로 검토하세요.
상황별 광학 압축을 사용하여 복잡한 PDF, 차트 및 다국어 아카이브를 디지털화, 분석 및 재구성합니다.