上下文光學壓縮引擎

DeepSeek OCR

DeepSeek OCR 將高解析度文件壓縮成精簡視覺 Token,再透過 30 億參數的專家混合模型解碼,實現跨越 100+ 語言的近乎無損文字、版面與圖示理解。

精度

97%

在 Fox 基準上實現 10 倍壓縮的精確匹配率。

吞吐量

20萬

使用單張 NVIDIA A100 GPU 時的每日處理頁數。

語言覆蓋

100+

多語種 DeepSeek OCR 覆蓋多種文字體系。

視覺 Token 數 壓縮比 激活的 MoE 參數

Tiny → Base → Large → Gundam 的演進展示了 DeepSeek OCR 如何在保持低 Token 數的同時提升視覺保真度。

什麼是 DeepSeek OCR?

DeepSeek OCR 是兩階段 Transformer 文件 AI,先把頁面影像壓縮成緊湊的視覺 Token,再交由高容量專家混合語言模型解碼。第一階段結合窗口化 SAM 視覺 Transformer、致密 CLIP-Large 編碼器與 16× 卷積壓縮器;第二階段以 DeepSeek-3B-MoE 解碼器(每個 Token 約 5.7 億參數啟用)重建文字、HTML 與圖像標註,將損耗降至最低。

模型以 3,000 萬頁真實 PDF 及合成圖表、公式、示意圖訓練,可保留版面結構、表格、化學式(SMILES)與幾何任務。承襲 CLIP 的多模態能力,即使在高壓縮比下,字幕與物件定位仍維持完整。

DeepSeek OCR 上下文光學壓縮

將 1024×1024 的頁面壓縮至 256 個 Token,讓傳統 OCR 難以處理的長篇文件也能順利載入,在大幅降低算力需求的同時保留全局語義。

DeepSeek OCR 多語言覆蓋

覆蓋 100+ 種語言——包括拉丁、漢字、日韓、斯拉夫文字及科學符號——支援全球的數碼化與資料生成專案。

DeepSeek OCR 特性矩陣

DeepSeek OCR 視覺編碼器

8,000 萬參數的窗口化 SAM 搭配 3 億參數 CLIP-Large,對齊局部字形細節與全局版面特徵,保持法律、金融、科研 PDF 的高保真。

DeepSeek OCR 模式選擇器

從 Tiny(64 個 Token)到 Gundam(多視窗平鋪),可在發票、藍圖與大幅面掃描之間靈活調校速度與保真度。

DeepSeek OCR 結構化輸出

輸出 HTML 表格、Markdown 圖表、SMILES 化學式與幾何標註,無需手動重建即可直接進入分析流程。

DeepSeek OCR 合規考量

MIT 授權的模型權重支援本地部署,使用託管 API 時亦能減少對 DeepSeek 中國基建的合規顧慮。

DeepSeek OCR 架構深潛

第 1 階段 · DeepSeek OCR DeepEncoder (~380M)

光柵化頁面(最大 1280×1280)分為 4096 個補丁,壓縮 16× 為 256-400 個令牌。本地窗口確保字形準確性,而 CLIP-Large 保留頁面語義。

第 2 階段 · DeepSeek OCR MoE 解碼器 (3B)

專家混合解碼器激活每個標記約 5.7 億個參數,重建文本、佈局標籤和標題。FlashAttention 和 CUDA 優化可維持 GPU 吞吐量。

DeepSeek OCR 多模態橋

CLIP 預訓練讓 DeepSeek OCR 將文本摘要與圖表、圖表和圖形對齊,這對於科學文檔和數據可視化交接至關重要。

DeepSeek OCR 數據流程

從壓縮到解碼的流水線保持上下文完整:

1. 高分辨率PDF頁面(640–1280像素)

SAM補丁提取

2. 16×卷積壓縮至64-400個token

上下文光壓縮

3. DeepSeek OCR MoE 解碼(~570M 活動)

FlashAttention加速

4. 輸出結構化 HTML、Markdown 或標題

佈局保留結果

DeepSeek OCR 基準比較

基準研究表明 DeepSeek OCR 可以在結構化文檔上提供最先進的準確性,同時保持較低的代幣預算。

OCR 系統 準確度速覽 速度 / 吞吐 核心優勢 部署方式
DeepSeek OCR 約 97% 精確匹配(10 倍壓縮) 單張 NVIDIA A100 日處理約 20 萬頁 擅長複雜版面、表格、公式、圖示與多語言 開源(MIT);本地 GPU 或 DeepSeek API
谷歌雲視覺 混合基準約 98% 彈性雲吞吐 企業級支持,多語言 API 專有按量計費 API
AWS Textract 表單識別約 97–99% 託管雲擴展 發票與表單抽取,輸出 JSON 專有按量計費 API
Azure OCR 清晰印刷文本約 99.8% 深度整合 Azure 生態 擅長印刷文檔;手寫體差異較大 專有按量計費 API
超正方OSS 視掃描質量約 90–95% 本地 CPU/GPU 開源,對手寫友好 開源(Apache 2.0)

來源:Fox 壓縮基準、OmniDocBench、AI Multiple 精度評測、DeepSeek 文檔。

如何使用 DeepSeek OCR

01

在本地 GPU 上部署 DeepSeek OCR

克隆 DeepSeek OCR GitHub 存儲庫,下載 6.7 GB safetensors 檢查點,並使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上運行,而 Gundam 平鋪則受益於 40 GB A100。

02

通過 API 調用 DeepSeek OCR

利用 DeepSeek 的 OpenAI 兼容 API 端點提交圖像並接收結構化文本。定價反映了平台的代幣計費(緩存命中每百萬輸入代幣約為 0.028 美元)。

03

將 DeepSeek OCR 融入工作流程

將 OCR 輸出轉換為 JSON,將 SMILES 字符串鏈接到化學信息學管道,或用於雙語發佈的自動字幕圖 - 所有這些都使用 DeepSeek OCR 的結構化結果。

DeepSeek OCR 運行建議

  • 延遲敏感任務請選擇 Base 或 Large 模式;歸檔批次可排入 Tiny 模式以延長 GPU 使用時間。
  • 將 DeepSeek OCR 與檢索增強生成流水線結合,在保留版面上下文的同時總結長文檔。
  • 使用 DeepSeek 託管 API 時關注地區合規;本地部署可避免跨境數據暴露。
  • 若需要手寫準確率,可結合 Tesseract 等手寫專用引擎。

DeepSeek OCR 典型場景

用於掃描圖書與報告的 DeepSeek OCR

將每頁數千個單詞壓縮為緊湊的標記,用於下游搜索、摘要和知識圖管道。

用於技術圖示與公式的 DeepSeek OCR

從視覺資產中提取幾何推理、工程註釋和化學微笑以支持科學分析。

DeepSeek OCR 多語言數據集構建

構建涵蓋 100 多種語言的全球語料庫,掃描書籍或調查,為下游語言模型創建訓練數據。

DeepSeek OCR 文檔轉換應用

嵌入到發票、合同或表單處理平台中,以發出佈局感知的 JSON 和 HTML,為自動化做好準備。

DeepSeek OCR 限制與對策

DeepSeek OCR 壓縮取捨

20 倍壓縮時準確率降至約 60%;遇到微小文字或密集表格時請選擇 Large 或 Gundam 模式。

DeepSeek OCR 矢量圖挑戰

細粒度矢量圖仍具挑戰;若需 CAD 級精度,請結合矢量解析器。

DeepSeek OCR 手寫短板

主要針對印刷文本訓練;手寫任務需配合專用 OCR 工具。

DeepSeek OCR 對 GPU 的依賴

即時吞吐依賴現代 GPU。可通過批處理或使用 DeepSeek 託管 API 平滑算力需求。

DeepSeek OCR 授權與定價

DeepSeek OCR MIT 開源自由

下載約 6.7 GB 的 safetensors 檢查點即可零許可費用本地部署 DeepSeek OCR,並按照合規要求定製流程。

DeepSeek OCR API 成本模型

託管訪問遵循 DeepSeek 的 Token 計費(緩存命中時每百萬輸入 Token 約 0.028 美元)。請依據壓縮模式與文檔量規劃預算。

硬件規劃:單張 A100(約 20 萬頁/天)可支撐企業隊列,20 台節點 × 8 張 A100 可達約 3300 萬頁/天的大規模數字化能力。

DeepSeek OCR 常見問題解答

DeepSeek OCR 如何壓縮長文檔?

DeepSeek OCR 將頁面切分為圖塊,進行 16× 卷積降採樣,僅傳遞 64–400 個視覺 Token 至 MoE 解碼器,在保留版面線索的同時將上下文縮小十倍。

哪些 GPU 能高效驅動 DeepSeek OCR?

NVIDIA A100(40 GB)可提供峯值吞吐(約 20 萬頁/天),具備 ≥8 GB 顯存的 RTX 30 系列顯卡可運行 Base 模式以滿足中等負載。

DeepSeek OCR 能處理手寫體嗎?

手寫體並非核心場景;與專用手寫 OCR 工具相比性能有限,必要時應聯合使用。

DeepSeek OCR 能保留表格和圖表嗎?

可以。測試表明其對錶格與圖表結構可實現近乎無損的 HTML/Markdown 還原,便於直接進入分析流水線。

DeepSeek OCR 的多語言能力如何?

依託豐富的真實與合成訓練數據,DeepSeek OCR 支持約 100 種語言,涵蓋拉丁、CJK、斯拉夫字母及科學符號。

DeepSeek OCR 可以輸出哪些格式?

根據提示詞,DeepSeek OCR 可輸出純文本、HTML、Markdown、結構化 JSON、SMILES 化學式與上下文字幕。

DeepSeek OCR 適用於受監管行業嗎?

本地部署在 MIT 許可下可確保數據留在內部;使用 DeepSeek API 時需審視其雲基礎設施帶來的合規要求。

DeepSeek OCR 與雲端 OCR 服務相比如何?

在複雜文檔上,它能與雲端競品持平甚至更優,同時使用更少的視覺 Token,非常適合 GPU 受限的場景。

有哪些工具生態支持 DeepSeek OCR?

Hugging Face Spaces、社區 Notebook 與 “awesome DeepSeek” 倉庫提供示例,SDK 可集成 Adobe、Figma 及 Python 客户端。

DeepSeek OCR 能輔助上下文歸檔嗎?

可以。可將對話存成圖像以擴展 LLM 上下文窗口,需要時再由 DeepSeek OCR 還原文本。

DeepSeek OCR 來自 X 的聲音

全球的實踐者與研究者正在分享 DeepSeek OCR 的上下文光學壓縮如何改變他們的文檔流程。這裏收錄了來自 X(Twitter)的精選反饋。

DeepSeek OCR 研究論文

下載官方 PDF,深入瞭解上下文光學壓縮範式、架構與基準。離線查閲實驗細節、消融分析與部署指南。

下載 DeepSeek OCR 論文 PDF · 6 MB · MIT

用 DeepSeek OCR 加速文檔智能

藉助上下文光學壓縮對複雜 PDF、圖表與多語檔案進行數字化、分析與重構。