上下文光學壓縮引擎

DeepSeek OCR

DeepSeek OCR 將高解析度文件壓縮成精簡視覺 Token,再透過 30 億參數的專家混合模型解碼,達成 100+ 語言的近乎無損文字、版面與圖像理解。

精度

97%

在 Fox 基準上實現 10 倍壓縮的精確匹配率。

吞吐量

20萬

使用單張 NVIDIA A100 GPU 時的每日處理頁數。

語言覆蓋

100+

多語種 DeepSeek OCR 覆蓋多種文字體系。

視覺 Token 數量 壓縮比 啟用的 MoE 參數

Tiny → Base → Large → Gundam 的演進呈現 DeepSeek OCR 如何在保持低 Token 數的同時提升視覺保真度。

什麼是 DeepSeek OCR?

DeepSeek OCR 是一種基於兩級轉換器的文件人工智慧,可將頁面影像壓縮為緊湊的視覺標記,然後使用高容量專家混合語言模型對其進行解碼。第一階段將視窗 SAM 視覺變換器與密集 CLIP-Large 編碼器和 16× 卷積壓縮器合併;第 2 階段使用 DeepSeek-3B-MoE 解碼器(每個標記約 570M 活動引數)以最小的損失重建文字、HTML 和圖形註釋。

DeepSeek OCR 經過 3000 萬個真實 PDF 頁面以及合成圖表、公式和圖表的訓練,保留了佈局結構、表格、化學(SMILES 字串)和幾何任務。其 CLIP 傳統保持了多模式能力——即使在劇烈壓縮之後,字幕和物件基礎仍然保持完整。

DeepSeek OCR 上下文光學壓縮

透過將 1024×1024 頁面減少到僅 256 個標記,DeepSeek OCR 能夠實現長文件攝取,這將壓倒傳統 OCR 管道,在保持全域性語義的同時大幅削減計算需求。

DeepSeek OCR 多語言覆蓋

超過 100 種語言(包括拉丁語、中日韓語、西里爾語和專門的科學文字)受益於 DeepSeek OCR 的培訓分佈,支援全球數字化和資料生成專案。

DeepSeek OCR 特性矩陣

DeepSeek OCR 視覺編碼器

80M 引數視窗 SAM 加上 300M 引數 CLIP-Large 將區域性字形細節與全域性佈局功能對齊,保持密集的法律、金融和科學 PDF 的保真度。

DeepSeek OCR 模式選擇器

從 Tiny(64 個 Token)到 Gundam(多視窗平鋪)皆可使用,輕鬆在發票、藍圖與大幅面掃描之間調整速度與精細度。

DeepSeek OCR 結構化輸出

輸出 HTML 表格、Markdown 圖表、SMILES 化學式與幾何註記,無需手動重建即可直接進入分析流程。

DeepSeek OCR 合規考量

麻省理工學院許可的權重允許組織在本地執行 DeepSeek OCR,從而在使用託管 API 時避免與 DeepSeek 的中國基礎設施相關的監管審查。

DeepSeek OCR 架構深潛

第 1 階段 · DeepSeek OCR DeepEncoder (~380M)

光柵化頁面(最大 1280×1280)分為 4096 個補丁,壓縮 16× 為 256-400 個令牌。本地視窗確保字形準確性,而 CLIP-Large 保留頁面語義。

第 2 階段 · DeepSeek OCR MoE 解碼器 (3B)

專家混合解碼器啟用每個標記約 5.7 億個引數,重建文字、佈局標籤和標題。FlashAttention 和 CUDA 最佳化可維持 GPU 吞吐量。

DeepSeek OCR 多模態橋

CLIP 預訓練讓 DeepSeek OCR 將文字摘要與圖表、圖表和圖形對齊,這對於科學文件和資料視覺化交接至關重要。

DeepSeek OCR 資料流程

從壓縮到解碼的流水線保持上下文完整:

1. 高解析度PDF頁面(640–1280畫素)

SAM補丁提取

2. 16×卷積壓縮至64-400個token

上下文光壓縮

3. DeepSeek OCR MoE 解碼(~570M 活動)

FlashAttention加速

4. 輸出結構化 HTML、Markdown 或標題

佈局保留結果

DeepSeek OCR 基準比較

基準研究表明 DeepSeek OCR 可以在結構化文件上提供最先進的準確性,同時保持較低的代幣預算。

OCR 系統 準確度速覽 速度 / 吞吐 核心優勢 部署方式
DeepSeek OCR 約 97% 精確匹配(10 倍壓縮) 單張 NVIDIA A100 日處理約 20 萬頁 擅長複雜版面、表格、公式、圖示與多語言 開源(MIT);本地 GPU 或 DeepSeek API
谷歌雲視覺 混合基準約 98% 彈性雲吞吐 企業級支援,多語言 API 專有按量計費 API
AWS Textract 表單識別約 97–99% 託管雲擴充套件 發票與表單抽取,輸出 JSON 專有按量計費 API
Azure OCR 清晰印刷文字約 99.8% 深度整合 Azure 生態 擅長印刷文件;手寫體差異較大 專有按量計費 API
超正方OSS 視掃描質量約 90–95% 本地 CPU/GPU 開源,對手寫友好 開源(Apache 2.0)

來源:Fox 壓縮基準、OmniDocBench、AI Multiple 精度評測、DeepSeek 文件。

如何使用 DeepSeek OCR

01

在本地 GPU 上部署 DeepSeek OCR

克隆 DeepSeek OCR GitHub 儲存庫,下載 6.7 GB safetensors 檢查點,並使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上執行,而 Gundam 平鋪則受益於 40 GB A100。

02

透過 API 呼叫 DeepSeek OCR

利用 DeepSeek 的 OpenAI 相容 API 端點提交影像並接收結構化文字。定價反映了平臺的代幣計費(快取命中每百萬輸入代幣約為 0.028 美元)。

03

將 DeepSeek OCR 融入工作流程

將 OCR 輸出轉換為 JSON,將 SMILES 字串連結到化學資訊學管道,或用於雙語釋出的自動字幕圖 - 所有這些都使用 DeepSeek OCR 的結構化結果。

DeepSeek OCR 執行建議

  • 延遲敏感任務請選擇 Base 或 Large 模式;歸檔批次可排入 Tiny 模式以延長 GPU 使用時間。
  • 將 DeepSeek OCR 與檢索增強生成流水線結合,在保留版面上下文的同時總結長文件。
  • 使用 DeepSeek 託管 API 時關注地區合規;本地部署可避免跨境資料暴露。
  • 若需要手寫準確率,可結合 Tesseract 等手寫專用引擎。

DeepSeek OCR 典型場景

用於掃描圖書與報告的 DeepSeek OCR

將每頁數千個單詞壓縮為緊湊的標記,用於下游搜尋、摘要和知識圖管道。

用於技術圖示與公式的 DeepSeek OCR

從視覺資產中提取幾何推理、工程註釋和化學微笑以支援科學分析。

DeepSeek OCR 多語言資料集構建

構建涵蓋 100 多種語言的全球語料庫,掃描書籍或調查,為下游語言模型建立訓練資料。

DeepSeek OCR 文件轉換應用

嵌入到發票、合同或表單處理平臺中,以發出佈局感知的 JSON 和 HTML,為自動化做好準備。

DeepSeek OCR 限制與對策

DeepSeek OCR 壓縮取捨

20 倍壓縮時準確率降至約 60%;遇到微小文字或密集表格時請選擇 Large 或 Gundam 模式。

DeepSeek OCR 向量圖挑戰

細粒度向量圖仍具挑戰;若需 CAD 級精度,請結合向量解析器。

DeepSeek OCR 手寫短板

主要針對印刷文字訓練;手寫任務需配合專用 OCR 工具。

DeepSeek OCR 對 GPU 的依賴

即時吞吐依賴現代 GPU。可透過批處理或使用 DeepSeek 託管 API 平滑算力需求。

DeepSeek OCR 授權與定價

DeepSeek OCR MIT 開源自由

下載約 6.7 GB 的 safetensors 檢查點即可零許可費用本地部署 DeepSeek OCR,並按照合規要求定製流程。

DeepSeek OCR API 成本模型

託管訪問遵循 DeepSeek 的 Token 計費(快取命中時每百萬輸入 Token 約 0.028 美元)。請依據壓縮模式與文件量規劃預算。

硬體規劃:單張 A100(約 20 萬頁/天)可支撐企業佇列,20 臺節點 × 8 張 A100 可達約 3300 萬頁/天的大規模數字化能力。

DeepSeek OCR 常見問題解答

DeepSeek OCR 如何壓縮長文件?

DeepSeek OCR 將頁面切分為圖塊,進行 16× 卷積降取樣,僅傳遞 64–400 個視覺 Token 至 MoE 解碼器,在保留版面線索的同時將上下文縮小十倍。

哪些 GPU 能高效驅動 DeepSeek OCR?

NVIDIA A100(40 GB)可提供峰值吞吐(約 20 萬頁/天),具備 ≥8 GB 視訊記憶體的 RTX 30 系列顯示卡可執行 Base 模式以滿足中等負載。

DeepSeek OCR 能處理手寫體嗎?

手寫體並非核心場景;與專用手寫 OCR 工具相比效能有限,必要時應聯合使用。

DeepSeek OCR 能保留表格和圖表嗎?

可以。測試表明其對錶格與圖表結構可實現近乎無損的 HTML/Markdown 還原,便於直接進入分析流水線。

DeepSeek OCR 的多語言能力如何?

依託豐富的真實與合成訓練資料,DeepSeek OCR 支援約 100 種語言,涵蓋拉丁、CJK、斯拉夫字母及科學符號。

DeepSeek OCR 可以輸出哪些格式?

根據提示詞,DeepSeek OCR 可輸出純文字、HTML、Markdown、結構化 JSON、SMILES 化學式與上下文字幕。

DeepSeek OCR 適用於受監管行業嗎?

本地部署在 MIT 許可下可確保資料留在內部;使用 DeepSeek API 時需審視其雲基礎設施帶來的合規要求。

DeepSeek OCR 與雲端 OCR 服務相比如何?

在複雜文件上,它能與雲端競品持平甚至更優,同時使用更少的視覺 Token,非常適合 GPU 受限的場景。

有哪些工具生態支援 DeepSeek OCR?

Hugging Face Spaces、社群 Notebook 與 “awesome DeepSeek” 倉庫提供示例,SDK 可整合 Adobe、Figma 及 Python 客戶端。

DeepSeek OCR 能輔助上下文歸檔嗎?

可以。可將對話存成影像以擴充套件 LLM 上下文視窗,需要時再由 DeepSeek OCR 還原文字。

DeepSeek OCR 來自 X 的聲音

全球的實踐者與研究者正在分享 DeepSeek OCR 的上下文光學壓縮如何改變他們的文件流程。這裡收錄了來自 X(Twitter)的精選反饋。

DeepSeek OCR 研究論文

下載官方 PDF,深入瞭解上下文光學壓縮正規化、架構與基準。離線查閱實驗細節、消融分析與部署指南。

下載 DeepSeek OCR 論文 PDF · 6 MB · MIT

用 DeepSeek OCR 加速文件智慧

藉助上下文光學壓縮對複雜 PDF、圖表與多語檔案進行數字化、分析與重構。