上下文光學壓縮引擎

DeepSeek OCR

DeepSeek OCR 將高解析度文件壓縮成精簡視覺 Token，再透過 30 億參數的專家混合模型解碼，達成 100+ 語言的近乎無損文字、版面與圖像理解。

精度

97%

在 Fox 基準上實現 10 倍壓縮的精確匹配率。

吞吐量

20萬

使用單張 NVIDIA A100 GPU 時的每日處理頁數。

語言覆蓋

100+

多語種 DeepSeek OCR 覆蓋多種文字體系。

深入瞭解 DeepSeek OCR

視覺 Token 數量壓縮比啟用的 MoE 參數

Tiny → Base → Large → Gundam 的演進呈現 DeepSeek OCR 如何在保持低 Token 數的同時提升視覺保真度。

什麼是 DeepSeek OCR？

DeepSeek OCR 是一種基於兩級轉換器的文件人工智慧，可將頁面影像壓縮為緊湊的視覺標記，然後使用高容量專家混合語言模型對其進行解碼。第一階段將視窗 SAM 視覺變換器與密集 CLIP-Large 編碼器和 16× 卷積壓縮器合併；第 2 階段使用 DeepSeek-3B-MoE 解碼器（每個標記約 570M 活動引數）以最小的損失重建文字、HTML 和圖形註釋。

DeepSeek OCR 經過 3000 萬個真實 PDF 頁面以及合成圖表、公式和圖表的訓練，保留了佈局結構、表格、化學（SMILES 字串）和幾何任務。其 CLIP 傳統保持了多模式能力——即使在劇烈壓縮之後，字幕和物件基礎仍然保持完整。

DeepSeek OCR 上下文光學壓縮

透過將 1024×1024 頁面減少到僅 256 個標記，DeepSeek OCR 能夠實現長文件攝取，這將壓倒傳統 OCR 管道，在保持全域性語義的同時大幅削減計算需求。

DeepSeek OCR 多語言覆蓋

超過 100 種語言（包括拉丁語、中日韓語、西里爾語和專門的科學文字）受益於 DeepSeek OCR 的培訓分佈，支援全球數字化和資料生成專案。

DeepSeek OCR 特性矩陣

DeepSeek OCR 視覺編碼器

80M 引數視窗 SAM 加上 300M 引數 CLIP-Large 將區域性字形細節與全域性佈局功能對齊，保持密集的法律、金融和科學 PDF 的保真度。

DeepSeek OCR 模式選擇器

從 Tiny（64 個 Token）到 Gundam（多視窗平鋪）皆可使用，輕鬆在發票、藍圖與大幅面掃描之間調整速度與精細度。

DeepSeek OCR 結構化輸出

輸出 HTML 表格、Markdown 圖表、SMILES 化學式與幾何註記，無需手動重建即可直接進入分析流程。

DeepSeek OCR 合規考量

麻省理工學院許可的權重允許組織在本地執行 DeepSeek OCR，從而在使用託管 API 時避免與 DeepSeek 的中國基礎設施相關的監管審查。

DeepSeek OCR 架構深潛

第 1 階段 · DeepSeek OCR DeepEncoder (~380M)

光柵化頁面（最大 1280×1280）分為 4096 個補丁，壓縮 16× 為 256-400 個令牌。本地視窗確保字形準確性，而 CLIP-Large 保留頁面語義。

第 2 階段 · DeepSeek OCR MoE 解碼器 (3B)

專家混合解碼器啟用每個標記約 5.7 億個引數，重建文字、佈局標籤和標題。FlashAttention 和 CUDA 最佳化可維持 GPU 吞吐量。

DeepSeek OCR 多模態橋

CLIP 預訓練讓 DeepSeek OCR 將文字摘要與圖表、圖表和圖形對齊，這對於科學文件和資料視覺化交接至關重要。

DeepSeek OCR 資料流程

從壓縮到解碼的流水線保持上下文完整：

1. 高解析度PDF頁面（640–1280畫素）

SAM補丁提取

2. 16×卷積壓縮至64-400個token

上下文光壓縮

3. DeepSeek OCR MoE 解碼（~570M 活動）

FlashAttention加速

4. 輸出結構化 HTML、Markdown 或標題

佈局保留結果

DeepSeek OCR 基準比較

基準研究表明 DeepSeek OCR 可以在結構化文件上提供最先進的準確性，同時保持較低的代幣預算。

OCR 系統	準確度速覽	速度 / 吞吐	核心優勢	部署方式
DeepSeek OCR	約 97% 精確匹配（10 倍壓縮）	單張 NVIDIA A100 日處理約 20 萬頁	擅長複雜版面、表格、公式、圖示與多語言	開源（MIT）；本地 GPU 或 DeepSeek API
谷歌雲視覺	混合基準約 98%	彈性雲吞吐	企業級支援，多語言 API	專有按量計費 API
AWS Textract	表單識別約 97–99%	託管雲擴充套件	發票與表單抽取，輸出 JSON	專有按量計費 API
Azure OCR	清晰印刷文字約 99.8%	深度整合 Azure 生態	擅長印刷文件；手寫體差異較大	專有按量計費 API
超正方OSS	視掃描質量約 90–95%	本地 CPU/GPU	開源，對手寫友好	開源（Apache 2.0）

來源：Fox 壓縮基準、OmniDocBench、AI Multiple 精度評測、DeepSeek 文件。

如何使用 DeepSeek OCR

01

在本地 GPU 上部署 DeepSeek OCR

克隆 DeepSeek OCR GitHub 儲存庫，下載 6.7 GB safetensors 檢查點，並使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上執行，而 Gundam 平鋪則受益於 40 GB A100。

02

透過 API 呼叫 DeepSeek OCR

利用 DeepSeek 的 OpenAI 相容 API 端點提交影像並接收結構化文字。定價反映了平臺的代幣計費（快取命中每百萬輸入代幣約為 0.028 美元）。

03

將 DeepSeek OCR 融入工作流程

將 OCR 輸出轉換為 JSON，將 SMILES 字串連結到化學資訊學管道，或用於雙語釋出的自動字幕圖 - 所有這些都使用 DeepSeek OCR 的結構化結果。

DeepSeek OCR 執行建議

延遲敏感任務請選擇 Base 或 Large 模式；歸檔批次可排入 Tiny 模式以延長 GPU 使用時間。
將 DeepSeek OCR 與檢索增強生成流水線結合，在保留版面上下文的同時總結長文件。
使用 DeepSeek 託管 API 時關注地區合規；本地部署可避免跨境資料暴露。
若需要手寫準確率，可結合 Tesseract 等手寫專用引擎。

DeepSeek OCR 典型場景

用於掃描圖書與報告的 DeepSeek OCR

將每頁數千個單詞壓縮為緊湊的標記，用於下游搜尋、摘要和知識圖管道。

用於技術圖示與公式的 DeepSeek OCR

從視覺資產中提取幾何推理、工程註釋和化學微笑以支援科學分析。

DeepSeek OCR 多語言資料集構建

構建涵蓋 100 多種語言的全球語料庫，掃描書籍或調查，為下游語言模型建立訓練資料。

DeepSeek OCR 文件轉換應用

嵌入到發票、合同或表單處理平臺中，以發出佈局感知的 JSON 和 HTML，為自動化做好準備。

DeepSeek OCR 視覺畫廊

瀏覽 DeepSeek OCR 的實際表現——架構示意、基準儀表板與真實轉換。點選任意影像可檢視高解析度。

DeepSeek OCR architecture snapshot — 架構概覽

DeepSeek OCR context compression visual — 壓縮洞察

DeepSeek OCR document conversion example — 文件輸出

DeepSeek OCR 限制與對策

DeepSeek OCR 壓縮取捨

20 倍壓縮時準確率降至約 60%；遇到微小文字或密集表格時請選擇 Large 或 Gundam 模式。

DeepSeek OCR 向量圖挑戰

細粒度向量圖仍具挑戰；若需 CAD 級精度，請結合向量解析器。

DeepSeek OCR 手寫短板

主要針對印刷文字訓練；手寫任務需配合專用 OCR 工具。

DeepSeek OCR 對 GPU 的依賴

即時吞吐依賴現代 GPU。可透過批處理或使用 DeepSeek 託管 API 平滑算力需求。

DeepSeek OCR 授權與定價

DeepSeek OCR MIT 開源自由

下載約 6.7 GB 的 safetensors 檢查點即可零許可費用本地部署 DeepSeek OCR，並按照合規要求定製流程。

DeepSeek OCR API 成本模型

託管訪問遵循 DeepSeek 的 Token 計費（快取命中時每百萬輸入 Token 約 0.028 美元）。請依據壓縮模式與文件量規劃預算。

硬體規劃：單張 A100（約 20 萬頁/天）可支撐企業佇列，20 臺節點 × 8 張 A100 可達約 3300 萬頁/天的大規模數字化能力。

DeepSeek OCR 常見問題解答

DeepSeek OCR 如何壓縮長文件？

DeepSeek OCR 將頁面切分為圖塊，進行 16× 卷積降取樣，僅傳遞 64–400 個視覺 Token 至 MoE 解碼器，在保留版面線索的同時將上下文縮小十倍。

哪些 GPU 能高效驅動 DeepSeek OCR？

NVIDIA A100（40 GB）可提供峰值吞吐（約 20 萬頁/天），具備 ≥8 GB 視訊記憶體的 RTX 30 系列顯示卡可執行 Base 模式以滿足中等負載。

DeepSeek OCR 能處理手寫體嗎？

手寫體並非核心場景；與專用手寫 OCR 工具相比效能有限，必要時應聯合使用。

DeepSeek OCR 能保留表格和圖表嗎？

可以。測試表明其對錶格與圖表結構可實現近乎無損的 HTML/Markdown 還原，便於直接進入分析流水線。

DeepSeek OCR 的多語言能力如何？

依託豐富的真實與合成訓練資料，DeepSeek OCR 支援約 100 種語言，涵蓋拉丁、CJK、斯拉夫字母及科學符號。

DeepSeek OCR 可以輸出哪些格式？

根據提示詞，DeepSeek OCR 可輸出純文字、HTML、Markdown、結構化 JSON、SMILES 化學式與上下文字幕。

DeepSeek OCR 適用於受監管行業嗎？

本地部署在 MIT 許可下可確保資料留在內部；使用 DeepSeek API 時需審視其雲基礎設施帶來的合規要求。

DeepSeek OCR 與雲端 OCR 服務相比如何？

在複雜文件上，它能與雲端競品持平甚至更優，同時使用更少的視覺 Token，非常適合 GPU 受限的場景。

有哪些工具生態支援 DeepSeek OCR？

Hugging Face Spaces、社群 Notebook 與 “awesome DeepSeek” 倉庫提供示例，SDK 可整合 Adobe、Figma 及 Python 客戶端。

DeepSeek OCR 能輔助上下文歸檔嗎？

可以。可將對話存成影像以擴充套件 LLM 上下文視窗，需要時再由 DeepSeek OCR 還原文字。

DeepSeek OCR 來自 X 的聲音

全球的實踐者與研究者正在分享 DeepSeek OCR 的上下文光學壓縮如何改變他們的文件流程。這裡收錄了來自 X（Twitter）的精選反饋。

這次大藍鯨帶著狂野的東西回來了！

DeepSeek 構建了一個 OCR 模型，可以使用視覺令牌將文字壓縮 10 倍。

讓我解釋一下：

他們有一個核心見解 - 包含文字的圖片需要比原始文字本身少得多的標記來表示。

現在，… pic.twitter.com/tIYtq437qX
—放鬆人工智慧 (@unwind_ai_) 2025 年 10 月 21 日

DeepSeek-OCR 非常棒。透過將長文字上下文轉換為影像標記，即使在大約 10 倍壓縮的情況下，我們也幾乎沒有惡化，並且即使在 20 倍壓縮的情況下也保持了 60% 的準確率。這使得法學碩士的長上下文處理得到了壓倒性的改進。作為常規 OCR，它似乎也非常好用。 pic.twitter.com/Ya6ae3Mbwz
—石川陽太 (@ytikw) 2025 年 10 月 20 日

deepseek-ocr這個名字過於低調，不去深入瞭解的話以為又是一個orc模型而已，然而這個模型實現了十倍的資訊壓縮率，一個影像token可以頂十個文字token，這可是一件大事，在hn上直接炸了。deepseek還提出用影像模糊程度來模擬人類記憶隨時間衰退的現象，讀取同一張圖片時可以呼叫不同解析度的專家模型。 https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— Datou (@Datou) 2025 年 10 月 20 日

與封閉的人工智慧實驗室不同，DeepSeek 證明它們是真正的開放研究

他們的 OCR 論文將段落視為畫素，效率比傳統法學碩士高 60 倍

小型超高效模型是未來 pic.twitter.com/RY7PJoeH3E
—賓杜·雷迪 (@bindureddy) 2025 年 10 月 21 日

深思OCR！開源是一份不斷贈送的禮物！驚人的！我剛剛使用這個優秀的新開源模型將 400 頁 PDF 轉換為 Markdown。花了不到4分鐘！ pic.twitter.com/QuxcDhVlPG
—特里斯坦·貝倫斯博士 (@DrTBehrens) 2025 年 10 月 20 日

🚀 DeepSeek-OCR — OCR 的新前沿 @deepseek_ai 探索 LLM 的光學上下文壓縮，在 vLLM ⚡ 上執行速度極快（在 A100-40G 上約為 2500 個令牌/秒） — 由 vllm==0.8.5 提供支援，提供 day-0 模型支援。

🧠 將視覺上下文壓縮高達 20 倍，同時保持...... pic.twitter.com/bx3d7LnfaR
—vLLM (@vllm_project) 2025 年 10 月 20 日

DeepSeek OCR 研究論文

下載官方 PDF，深入瞭解上下文光學壓縮正規化、架構與基準。離線查閱實驗細節、消融分析與部署指南。

下載 DeepSeek OCR 論文 PDF · 6 MB · MIT

用 DeepSeek OCR 加速文件智慧

藉助上下文光學壓縮對複雜 PDF、圖表與多語檔案進行數字化、分析與重構。

訪問 DeepSeek OCR 倉庫閱讀技術概要