컨텍스트 광학 압축 엔진

DeepSeek OCR

DeepSeek OCR은 고해상도 문서를 컴팩트한 비전 토큰으로 압축하고, 30억 파라미터 전문가 혼합 모델로 복원해 100개 이상 언어의 텍스트·레이아웃·도면 정보를 거의 손실 없이 이해합니다.

정밀도

97%

10배 압축에서 Fox 벤치마크의 정확한 일치 정확도.

처리량

20만

DeepSeek OCR을 사용하는 단일 NVIDIA A100 GPU의 하루 처리 페이지 수.

지원 언어

100+

다양한 스크립트에 대한 다국어 DeepSeek OCR 적용 범위.

DeepSeek OCR 자세히 보기

비전 토큰 수 압축 비율 활성 MoE 파라미터

Tiny → Base → Large → Gundam 단계는 낮은 토큰 수를 유지하면서 시각적 충실도를 확장하는 DeepSeek OCR의 특성을 보여줍니다.

DeepSeek OCR 소개

DeepSeek OCR은 페이지 이미지를 컴팩트한 비전 토큰으로 압축한 뒤, 대용량 전문가 혼합 언어 모델로 디코딩하는 두 단계의 Transformer 기반 문서 AI입니다. 1단계에서는 창 구조의 SAM 비전 트랜스포머와 고밀도 CLIP-Large 인코더, 16배 컨볼루션 압축기를 결합합니다. 2단계에서는 토큰당 약 5억 7천만 파라미터가 활성화되는 DeepSeek-3B-MoE 디코더로 텍스트·HTML·도면 주석을 최소한의 손실로 복원합니다.

약 3천만 페이지의 실제 PDF와 합성 차트·수식·도면으로 학습되어 레이아웃 구조, 테이블, 화학식(SMILES)과 기하 작업을 그대로 보존합니다. CLIP 계열의 멀티모달 역량 덕분에 강한 압축 이후에도 캡션과 객체 정렬이 무너지지 않습니다.

DeepSeek OCR 컨텍스트 광학 압축

1024×1024 해상도의 페이지를 256개 토큰으로 줄여, 기존 OCR 파이프라인이 처리하기 어려운 장문 문서를 수집하면서도 전역 의미를 유지하고 연산 부담을 크게 낮춥니다.

DeepSeek OCR 다국어 지원

라틴 문자, CJK, 키릴 문자, 과학 기호 등 100여 개 언어를 지원해 글로벌 디지털화와 데이터 생성 프로젝트를 뒷받침합니다.

DeepSeek OCR 기능 스택

DeepSeek OCR 비전 인코더

8천만 파라미터의 창형 SAM과 3억 파라미터 CLIP-Large가 국소 글리프 디테일과 전체 레이아웃을 정렬해, 법률·금융·과학 분야의 고밀도 PDF에서도 높은 충실도를 유지합니다.

DeepSeek OCR 모드 선택기

Tiny(64개 토큰)부터 Gundam(다중 뷰포트 타일링)까지 DeepSeek OCR을 사용하면 송장, 청사진 및 대형 스캔의 속도와 충실도 간 정밀 조정이 가능합니다.

DeepSeek OCR 구조화 출력

HTML 테이블, 마크다운 차트, SMILES 화학식, 기하 주석을 생성해 수동 재구성 없이 분석 파이프라인에 바로 투입할 수 있습니다.

DeepSeek OCR 컴플라이언스 고려사항

MIT 라이선스 모델 가중치로 온프레미스 운영이 가능하며, 호스티드 API 사용 시에도 DeepSeek 중국 인프라에 대한 규제 리스크를 줄일 수 있습니다.

DeepSeek OCR 아키텍처 자세히 보기

1단계 · DeepSeek OCR DeepEncoder(~380M)

래스터화된 페이지(최대 1280×1280)는 4096개의 패치로 분할되고 16×는 256–400 토큰으로 압축됩니다.로컬 창은 문자 모양의 정확성을 보장하는 반면 CLIP-Large는 페이지 의미를 유지합니다.

2단계 · DeepSeek OCR MoE 디코더(3B)

전문가 혼합 디코더는 토큰당 최대 5억 7천만 개의 매개변수를 활성화하여 텍스트, 레이아웃 태그 및 캡션을 재구성합니다.FlashAttention 및 CUDA 최적화는 GPU 처리량을 유지합니다.

DeepSeek OCR 멀티모달 브리지

CLIP 사전 훈련을 통해 DeepSeek OCR은 텍스트 요약을 다이어그램, 차트 및 그림과 정렬할 수 있습니다. 이는 과학 문서 및 데이터 시각화 핸드오프에 필수적입니다.

DeepSeek OCR 데이터 흐름

디코딩 파이프라인으로 압축하면 컨텍스트가 그대로 유지됩니다.

1. 고해상도 PDF 페이지(640~1280px)

SAM 패치 추출

2. 64-400개의 토큰으로 16× 컨벌루션 압축

상황별 광학 압축

3. DeepSeek OCR MoE 디코딩(~570M 활성)

FlashAttention 가속

4. 구조화된 HTML, 마크다운 또는 캡션 출력

레이아웃 보존 결과

DeepSeek OCR 벤치마크 비교

벤치마크 연구에 따르면 DeepSeek OCR은 낮은 토큰 예산을 유지하면서 구조화된 문서에 대해 최첨단 정확성을 제공합니다.

OCR 시스템	정확도 스냅샷	속도 / 처리량	핵심강점	전개
DeepSeek OCR	10× 압축에서 ~97% 정확히 일치	NVIDIA A100당 최대 200,000페이지/일	레이아웃이 풍부한 OCR, 표, 수식, 다이어그램, 다국어	오픈 소스(MIT);로컬 GPU 또는 DeepSeek API
구글 클라우드 비전	혼합 벤치마크에서 ~98%	탄력적인 클라우드 처리량	기업 지원, 다국어 API	독점적인 종량제 API
AWS 텍스트랙트	양식의 경우 ~97~99%	관리형 클라우드 확장	JSON 출력을 통한 송장 및 양식 추출	독점적인 종량제 API
Azure OCR	깔끔하게 입력된 텍스트의 경우 ~99.8%	Azure 생태계 통합	인쇄된 페이지에 강력합니다.필기 차이	독점적인 종량제 API
테서랙트 OSS	스캔에 따라 ~90~95%	로컬 CPU/GPU	오픈 소스, 필기 친화적	오픈 소스(Apache 2.0)

출처: Fox 압축 벤치마크, OmniDocBench, AI 다중 정확도 검토, DeepSeek 문서.

DeepSeek OCR을 사용하는 방법

01

GPU를 사용하여 DeepSeek OCR을 로컬로 배포

DeepSeek OCR GitHub 저장소를 복제하고, 6.7GB safetensors 체크포인트를 다운로드하고, FlashAttention으로 PyTorch 2.6+를 구성하세요.기본 모드는 8~10GB GPU에서 실행되는 반면 건담 타일링은 40GB A100의 이점을 얻습니다.

02

API를 통해 DeepSeek OCR 호출

DeepSeek의 OpenAI 호환 API 엔드포인트를 활용하여 이미지를 제출하고 구조화된 텍스트를 수신하세요.가격은 플랫폼의 토큰 청구를 반영합니다(캐시 적중의 경우 백만 입력 토큰당 ~$0.028).

03

DeepSeek OCR을 워크플로에 통합

OCR 출력을 JSON으로 변환하고, SMILES 문자열을 화학정보학 파이프라인에 연결하거나, 이중 언어 출판을 위한 자동 캡션 다이어그램을 연결하는 등 모두 DeepSeek OCR의 구조화된 결과를 사용합니다.

DeepSeek OCR 운영 가드레일

기본 또는 대규모 모드에서 대기 시간에 민감한 작업을 예약합니다.GPU 시간을 늘리기 위해 Tiny 모드에서 아카이브 배치 대기열을 생성합니다.
DeepSeek OCR을 검색 확장 생성 파이프라인과 결합하여 레이아웃 컨텍스트를 존중하면서 긴 문서를 요약합니다.
DeepSeek의 호스팅 API를 활용할 때 지역 규정 준수를 검토하세요.로컬 배포는 국경 간 데이터 노출을 방지합니다.
필기체 정확성이 요구되는 경우 필기 중심 엔진(예: Tesseract)과 결합하세요.

DeepSeek OCR 사용 사례

스캔한 도서 및 보고서를 위한 DeepSeek OCR

다운스트림 검색, 요약 및 지식 그래프 파이프라인을 위해 페이지당 수천 개의 단어를 컴팩트 토큰으로 압축합니다.

기술 다이어그램 및 공식을 위한 DeepSeek OCR

과학적 분석을 지원하기 위해 시각적 자산에서 기하학적 추론, 엔지니어링 주석 및 화학적 미소를 추출합니다.

DeepSeek OCR 다국어 데이터 세트 생성

100개 이상의 언어에 대한 글로벌 코퍼스를 구축하고 책이나 설문조사를 스캔하여 다운스트림 언어 모델을 위한 교육 데이터를 생성합니다.

DeepSeek OCR 문서 변환 앱

송장, 계약서 또는 양식 처리 플랫폼에 삽입하여 자동화 가능한 레이아웃 인식 JSON 및 HTML을 내보냅니다.

DeepSeek OCR 비주얼 갤러리

아키텍처 다이어그램, 벤치마크 대시보드, 실제 변환 등 DeepSeek OCR의 실제 동작을 살펴보세요.고해상도 보기를 열려면 아무 프레임이나 클릭하세요.

DeepSeek OCR architecture snapshot — 아키텍처 개요

DeepSeek OCR benchmark results — 벤치마크 지표

DeepSeek OCR context compression visual — 압축 통찰력

DeepSeek OCR document conversion example — 문서 출력

DeepSeek OCR 제한 사항 및 완화

DeepSeek OCR 압축 장단점

20배 압축에서는 정확도가 ~60%로 떨어집니다.마이크로텍스트나 조밀한 테이블이 있는 경우 대형 또는 건담 모드를 선택하세요.

DeepSeek OCR 벡터 그래픽 문제

정밀한 벡터 차트는 여전히 까다롭습니다.CAD 정밀도가 필수적인 경우 벡터 기반 파서와 결합합니다.

DeepSeek OCR 필기 간격

주로 인쇄된 텍스트에 대한 교육을 받았습니다.필기체가 많은 작업 부하를 위한 필기 OCR 도구로 보완하세요.

DeepSeek OCR GPU 종속성

실시간 처리량에는 최신 GPU가 필요합니다.일괄 처리 또는 DeepSeek의 관리형 API는 컴퓨팅 요구를 원활하게 할 수 있습니다.

DeepSeek OCR 라이선스 및 가격

DeepSeek OCR MIT 오픈 소스 자유

최대 6.7GB 세이프텐서 체크포인트를 다운로드하고 라이선스 비용 없이 로컬에서 DeepSeek OCR을 운영하여 규정 준수 표준에 맞게 워크플로를 사용자 정의하세요.

DeepSeek OCR API 토큰 경제

호스팅된 액세스는 DeepSeek의 토큰 가격(캐시 적중 시 입력 토큰 백만 개당 ~$0.028)을 따릅니다.압축 모드와 문서 볼륨을 중심으로 예산을 계획하세요.

하드웨어 계획: 단일 A100(~200,000페이지/일)은 기업 대기열을 구동할 수 있는 반면, 20노드 × 8개의 A100은 대규모 디지털화를 위해 최대 3,300만 페이지/일에 도달합니다.

DeepSeek OCR 자주 묻는 질문

DeepSeek OCR은 긴 문서를 어떻게 압축합니까?

DeepSeek OCR은 페이지를 패치로 분할하고 16배 컨벌루션 다운샘플링을 적용하며 64~400개의 비전 토큰만 MoE 디코더에 전달하여 컨텍스트 크기를 10배로 줄이면서 레이아웃 큐를 유지합니다.

DeepSeek OCR을 효과적으로 지원하는 GPU는 무엇입니까?

NVIDIA A100(40GB)은 최대 처리량(~200,000페이지/일)을 제공하는 반면, ≥8GB VRAM을 갖춘 RTX 30 시리즈 카드는 중간 로드의 기본 모드를 처리할 수 있습니다.

DeepSeek OCR은 필기를 처리합니까?

필기는 핵심 초점이 아닙니다.특수 필기체 OCR 도구에 비해 성능은 여전히 제한적입니다.필요한 경우 DeepSeek OCR을 필기 엔진과 페어링하세요.

DeepSeek OCR은 테이블과 차트를 보존할 수 있습니까?

예.테스트에서는 테이블 및 차트 구조에 대한 거의 무손실 HTML/마크다운 재생을 보여 수동 정리 없이 분석 파이프라인을 활성화합니다.

DeepSeek OCR은 얼마나 다국어를 지원하나요?

DeepSeek OCR은 광범위한 실제 및 합성 교육 데이터 덕분에 라틴어, CJK, 키릴 문자 및 과학적 표기법을 포함하여 약 100개 언어를 포괄합니다.

DeepSeek OCR은 어떤 출력 형식을 생성할 수 있습니까?

DeepSeek OCR은 프롬프트에 따라 일반 텍스트, HTML, Markdown, 구조화된 JSON, SMILES 화학 문자열 및 상황별 캡션을 내보낼 수 있습니다.

DeepSeek OCR은 규제 대상 산업에 안전한가요?

로컬 배포는 MIT 라이선스에 따라 데이터를 온프레미스에 유지합니다.DeepSeek의 API를 사용하는 경우 회사의 클라우드 인프라 조사에 따른 규정 준수 지침을 참조하세요.

DeepSeek OCR은 클라우드 OCR 서비스와 어떻게 비교됩니까?

훨씬 적은 수의 비전 토큰을 사용하면서 복잡한 문서에서 클라우드 경쟁사와 일치하거나 능가하므로 GPU 제한 작업에 이상적입니다.

DeepSeek OCR을 지원하는 도구 생태계는 무엇입니까?

Hugging Face Spaces, 커뮤니티 노트북 및 "멋진 DeepSeek" 저장소에서는 데모를 선보이며 SDK는 Adobe, Figma 및 Python 클라이언트와 통합됩니다.

DeepSeek OCR이 컨텍스트 보관을 지원할 수 있습니까?

예.대화를 이미지로 저장하여 LLM 컨텍스트 창을 확장하고 필요할 때 DeepSeek OCR이 텍스트를 재구성하도록 합니다.

X의 DeepSeek OCR 음성

전 세계의 실무자와 연구자들은 DeepSeek OCR의 컨텍스트 광학 압축이 문서 작업 흐름을 어떻게 변화시키는지 공유하고 있습니다.X(Twitter)에서 캡처한 선별된 반응 피드를 살펴보세요.

이번에는 커다란 푸른 고래가 야생의 모습으로 돌아왔습니다!

DeepSeek은 비전 토큰을 사용하여 텍스트를 10배까지 압축할 수 있는 OCR 모델을 구축했습니다.

설명하겠습니다.

그들은 핵심 통찰력을 가지고 있었습니다. 텍스트가 포함된 그림은 원시 텍스트 자체보다 표현하는 데 훨씬 적은 토큰이 필요합니다.

지금,… pic.twitter.com/tIYtq437qX
—언와인드 AI(@unwind_ai_) 2025년 10월 21일

DeepSeek-OCR은 놀랍습니다.긴 텍스트 컨텍스트를 이미지 토큰으로 변환함으로써 약 10배 압축에서도 품질 저하가 거의 발생하지 않았으며, 20배 압축에서도 60%의 정확도를 유지했습니다.이를 통해 LLM의 긴 컨텍스트 처리를 획기적으로 향상시킬 수 있습니다.일반 OCR로도 매우 좋은 것 같습니다. pic.twitter.com/Ya6ae3Mbwz
— 이시카와 요타(@ytiskw) 2025년 10월 20일

deepseek-ocr이라는 이름은 너무 은밀합니다. 깊이 이해하지 못하면 그저 또 다른 ORC 모델이라고 생각하게 될 것입니다. 그러나 이 모델은 정보 압축률의 10배를 달성합니다. 하나의 이미지 토큰은 10개의 텍스트 토큰과 동일할 수 있습니다. 이것은 큰 일이고 hn에서 폭발했습니다.Deepseek은 또한 시간이 지남에 따라 인간의 기억력이 감소하는 것을 시뮬레이션하기 위해 이미지 흐림 정도를 사용할 것을 제안했습니다. 동일한 사진을 읽을 때 해상도가 다른 전문가 모델을 호출할 수 있습니다. https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— 다투(@Datou) 2025년 10월 20일

폐쇄형 AI 연구실과 달리 DeepSeek은 진정한 개방형 연구임을 증명합니다.

OCR 논문은 단락을 픽셀로 처리하며 기존 LLM보다 60배 더 효율적입니다.

소형 초효율 모델이 미래입니다 pic.twitter.com/RY7PJoeH3E
—빈두 레디(@bindureddy) 2025년 10월 21일

DeepSeek OCR!오픈소스는 계속해서 주는 선물입니다!엄청난!저는 이 훌륭한 새 오픈 소스 모델을 사용하여 400페이지의 PDF를 마크다운으로 변환했습니다.4분도 안걸렸어요! pic.twitter.com/QuxcDhVlPG
—트리스탄 베렌스 박사(@DrTBehrens) 2025년 10월 20일

🚀 DeepSeek-OCR — OCR의 새로운 개척지 @deepseek_ai LLM에 대한 광학 컨텍스트 압축을 탐색하는 는 vLLM ⚡(A100-40G에서 최대 2500개 토큰/초)에서 엄청나게 빠르게 실행됩니다. - 0일차 모델 지원을 위해 vllm==0.8.5로 구동됩니다.

🧠 시각적 컨텍스트를 최대 20배까지 압축하면서… pic.twitter.com/bx3d7LnfaR
—vLLM(@vllm_project) 2025년 10월 20일

DeepSeek OCR 연구 논문

공식 PDF를 다운로드하여 광 압축 패러다임, 아키텍처 및 벤치마크에 대해 자세히 알아보세요.DeepSeek OCR 팀에서 직접 자세한 실험, 절제 및 배포 지침을 살펴보려면 오프라인으로 검토하세요.

DeepSeek OCR 용지 다운로드 PDF · 6MB · 신화

DeepSeek OCR로 문서 인텔리전스 가속화

상황별 광학 압축을 사용하여 복잡한 PDF, 차트 및 다국어 아카이브를 디지털화, 분석 및 재구성합니다.

DeepSeek OCR 저장소에 액세스 기술 개요 읽기