DeepSeek OCR 視覺編碼器
8,000 萬參數的窗口化 SAM 搭配 3 億參數 CLIP-Large,對齊局部字形細節與全局版面特徵,保持法律、金融、科研 PDF 的高保真。
Tiny → Base → Large → Gundam 的演進展示了 DeepSeek OCR 如何在保持低 Token 數的同時提升視覺保真度。
DeepSeek OCR 是兩階段 Transformer 文件 AI,先把頁面影像壓縮成緊湊的視覺 Token,再交由高容量專家混合語言模型解碼。第一階段結合窗口化 SAM 視覺 Transformer、致密 CLIP-Large 編碼器與 16× 卷積壓縮器;第二階段以 DeepSeek-3B-MoE 解碼器(每個 Token 約 5.7 億參數啟用)重建文字、HTML 與圖像標註,將損耗降至最低。
模型以 3,000 萬頁真實 PDF 及合成圖表、公式、示意圖訓練,可保留版面結構、表格、化學式(SMILES)與幾何任務。承襲 CLIP 的多模態能力,即使在高壓縮比下,字幕與物件定位仍維持完整。
將 1024×1024 的頁面壓縮至 256 個 Token,讓傳統 OCR 難以處理的長篇文件也能順利載入,在大幅降低算力需求的同時保留全局語義。
覆蓋 100+ 種語言——包括拉丁、漢字、日韓、斯拉夫文字及科學符號——支援全球的數碼化與資料生成專案。
8,000 萬參數的窗口化 SAM 搭配 3 億參數 CLIP-Large,對齊局部字形細節與全局版面特徵,保持法律、金融、科研 PDF 的高保真。
從 Tiny(64 個 Token)到 Gundam(多視窗平鋪),可在發票、藍圖與大幅面掃描之間靈活調校速度與保真度。
輸出 HTML 表格、Markdown 圖表、SMILES 化學式與幾何標註,無需手動重建即可直接進入分析流程。
MIT 授權的模型權重支援本地部署,使用託管 API 時亦能減少對 DeepSeek 中國基建的合規顧慮。
光柵化頁面(最大 1280×1280)分為 4096 個補丁,壓縮 16× 為 256-400 個令牌。本地窗口確保字形準確性,而 CLIP-Large 保留頁面語義。
專家混合解碼器激活每個標記約 5.7 億個參數,重建文本、佈局標籤和標題。FlashAttention 和 CUDA 優化可維持 GPU 吞吐量。
CLIP 預訓練讓 DeepSeek OCR 將文本摘要與圖表、圖表和圖形對齊,這對於科學文檔和數據可視化交接至關重要。
從壓縮到解碼的流水線保持上下文完整:
1. 高分辨率PDF頁面(640–1280像素)
SAM補丁提取
2. 16×卷積壓縮至64-400個token
上下文光壓縮
3. DeepSeek OCR MoE 解碼(~570M 活動)
FlashAttention加速
4. 輸出結構化 HTML、Markdown 或標題
佈局保留結果
基準研究表明 DeepSeek OCR 可以在結構化文檔上提供最先進的準確性,同時保持較低的代幣預算。
| OCR 系統 | 準確度速覽 | 速度 / 吞吐 | 核心優勢 | 部署方式 | 
|---|---|---|---|---|
| DeepSeek OCR | 約 97% 精確匹配(10 倍壓縮) | 單張 NVIDIA A100 日處理約 20 萬頁 | 擅長複雜版面、表格、公式、圖示與多語言 | 開源(MIT);本地 GPU 或 DeepSeek API | 
| 谷歌雲視覺 | 混合基準約 98% | 彈性雲吞吐 | 企業級支持,多語言 API | 專有按量計費 API | 
| AWS Textract | 表單識別約 97–99% | 託管雲擴展 | 發票與表單抽取,輸出 JSON | 專有按量計費 API | 
| Azure OCR | 清晰印刷文本約 99.8% | 深度整合 Azure 生態 | 擅長印刷文檔;手寫體差異較大 | 專有按量計費 API | 
| 超正方OSS | 視掃描質量約 90–95% | 本地 CPU/GPU | 開源,對手寫友好 | 開源(Apache 2.0) | 
來源:Fox 壓縮基準、OmniDocBench、AI Multiple 精度評測、DeepSeek 文檔。
克隆 DeepSeek OCR GitHub 存儲庫,下載 6.7 GB safetensors 檢查點,並使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上運行,而 Gundam 平鋪則受益於 40 GB A100。
利用 DeepSeek 的 OpenAI 兼容 API 端點提交圖像並接收結構化文本。定價反映了平台的代幣計費(緩存命中每百萬輸入代幣約為 0.028 美元)。
將 OCR 輸出轉換為 JSON,將 SMILES 字符串鏈接到化學信息學管道,或用於雙語發佈的自動字幕圖 - 所有這些都使用 DeepSeek OCR 的結構化結果。
將每頁數千個單詞壓縮為緊湊的標記,用於下游搜索、摘要和知識圖管道。
從視覺資產中提取幾何推理、工程註釋和化學微笑以支持科學分析。
構建涵蓋 100 多種語言的全球語料庫,掃描書籍或調查,為下游語言模型創建訓練數據。
嵌入到發票、合同或表單處理平台中,以發出佈局感知的 JSON 和 HTML,為自動化做好準備。
瀏覽 DeepSeek OCR 的實際表現——架構示意、基準儀表板與真實轉換。點擊任意圖像可查看高分辨率。
            
            
            
            20 倍壓縮時準確率降至約 60%;遇到微小文字或密集表格時請選擇 Large 或 Gundam 模式。
細粒度矢量圖仍具挑戰;若需 CAD 級精度,請結合矢量解析器。
主要針對印刷文本訓練;手寫任務需配合專用 OCR 工具。
即時吞吐依賴現代 GPU。可通過批處理或使用 DeepSeek 託管 API 平滑算力需求。
下載約 6.7 GB 的 safetensors 檢查點即可零許可費用本地部署 DeepSeek OCR,並按照合規要求定製流程。
託管訪問遵循 DeepSeek 的 Token 計費(緩存命中時每百萬輸入 Token 約 0.028 美元)。請依據壓縮模式與文檔量規劃預算。
硬件規劃:單張 A100(約 20 萬頁/天)可支撐企業隊列,20 台節點 × 8 張 A100 可達約 3300 萬頁/天的大規模數字化能力。
DeepSeek OCR 將頁面切分為圖塊,進行 16× 卷積降採樣,僅傳遞 64–400 個視覺 Token 至 MoE 解碼器,在保留版面線索的同時將上下文縮小十倍。
NVIDIA A100(40 GB)可提供峯值吞吐(約 20 萬頁/天),具備 ≥8 GB 顯存的 RTX 30 系列顯卡可運行 Base 模式以滿足中等負載。
手寫體並非核心場景;與專用手寫 OCR 工具相比性能有限,必要時應聯合使用。
可以。測試表明其對錶格與圖表結構可實現近乎無損的 HTML/Markdown 還原,便於直接進入分析流水線。
依託豐富的真實與合成訓練數據,DeepSeek OCR 支持約 100 種語言,涵蓋拉丁、CJK、斯拉夫字母及科學符號。
根據提示詞,DeepSeek OCR 可輸出純文本、HTML、Markdown、結構化 JSON、SMILES 化學式與上下文字幕。
本地部署在 MIT 許可下可確保數據留在內部;使用 DeepSeek API 時需審視其雲基礎設施帶來的合規要求。
在複雜文檔上,它能與雲端競品持平甚至更優,同時使用更少的視覺 Token,非常適合 GPU 受限的場景。
Hugging Face Spaces、社區 Notebook 與 “awesome DeepSeek” 倉庫提供示例,SDK 可集成 Adobe、Figma 及 Python 客户端。
可以。可將對話存成圖像以擴展 LLM 上下文窗口,需要時再由 DeepSeek OCR 還原文本。
全球的實踐者與研究者正在分享 DeepSeek OCR 的上下文光學壓縮如何改變他們的文檔流程。這裏收錄了來自 X(Twitter)的精選反饋。
這次大藍鯨帶着狂野的東西回來了!
—放鬆人工智能 (@unwind_ai_) 2025 年 10 月 21 日
DeepSeek 構建了一個 OCR 模型,可以使用視覺令牌將文本壓縮 10 倍。
讓我解釋一下:
他們有一個核心見解 - 包含文本的圖片需要比原始文本本身少得多的標記來表示。
現在,… pic.twitter.com/tIYtq437qX
DeepSeek-OCR 非常棒。通過將長文本上下文轉換為圖像標記,即使在大約 10 倍壓縮的情況下,我們也幾乎沒有惡化,並且即使在 20 倍壓縮的情況下也保持了 60% 的準確率。這使得法學碩士的長上下文處理得到了壓倒性的改進。作為常規 OCR,它似乎也非常好用。 pic.twitter.com/Ya6ae3Mbwz
—石川陽太 (@ytikw) 2025 年 10 月 20 日
deepseek-ocr這個名字過於低調,不去深入瞭解的話以為又是一個orc模型而已,然而這個模型實現了十倍的信息壓縮率,一個圖像token可以頂十個文本token,這可是一件大事,在hn上直接炸了。deepseek還提出用圖像模糊程度來模擬人類記憶隨時間衰退的現象,讀取同一張圖片時可以調用不同分辨率的專家模型。 https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— Datou (@Datou) 2025 年 10 月 20 日
與封閉的人工智能實驗室不同,DeepSeek 證明它們是真正的開放研究
—賓杜·雷迪 (@bindureddy) 2025 年 10 月 21 日
他們的 OCR 論文將段落視為像素,效率比傳統法學碩士高 60 倍
小型超高效模型是未來 pic.twitter.com/RY7PJoeH3E
深思OCR!開源是一份不斷贈送的禮物!驚人的!我剛剛使用這個優秀的新開源模型將 400 頁 PDF 轉換為 Markdown。花了不到4分鐘! pic.twitter.com/QuxcDhVlPG
—特里斯坦·貝倫斯博士 (@DrTBehrens) 2025 年 10 月 20 日
🚀 DeepSeek-OCR — OCR 的新前沿 @deepseek_ai 探索 LLM 的光學上下文壓縮,在 vLLM ⚡ 上運行速度極快(在 A100-40G 上約為 2500 個令牌/秒) — 由 vllm==0.8.5 提供支持,提供 day-0 模型支持。
—vLLM (@vllm_project) 2025 年 10 月 20 日
🧠 將視覺上下文壓縮高達 20 倍,同時保持...... pic.twitter.com/bx3d7LnfaR
下載官方 PDF,深入瞭解上下文光學壓縮範式、架構與基準。離線查閲實驗細節、消融分析與部署指南。
藉助上下文光學壓縮對複雜 PDF、圖表與多語檔案進行數字化、分析與重構。