DeepSeek OCR 視覺編碼器
80M 引數視窗 SAM 加上 300M 引數 CLIP-Large 將區域性字形細節與全域性佈局功能對齊,保持密集的法律、金融和科學 PDF 的保真度。
Tiny → Base → Large → Gundam 的演進呈現 DeepSeek OCR 如何在保持低 Token 數的同時提升視覺保真度。
DeepSeek OCR 是一種基於兩級轉換器的文件人工智慧,可將頁面影像壓縮為緊湊的視覺標記,然後使用高容量專家混合語言模型對其進行解碼。第一階段將視窗 SAM 視覺變換器與密集 CLIP-Large 編碼器和 16× 卷積壓縮器合併;第 2 階段使用 DeepSeek-3B-MoE 解碼器(每個標記約 570M 活動引數)以最小的損失重建文字、HTML 和圖形註釋。
DeepSeek OCR 經過 3000 萬個真實 PDF 頁面以及合成圖表、公式和圖表的訓練,保留了佈局結構、表格、化學(SMILES 字串)和幾何任務。其 CLIP 傳統保持了多模式能力——即使在劇烈壓縮之後,字幕和物件基礎仍然保持完整。
透過將 1024×1024 頁面減少到僅 256 個標記,DeepSeek OCR 能夠實現長文件攝取,這將壓倒傳統 OCR 管道,在保持全域性語義的同時大幅削減計算需求。
超過 100 種語言(包括拉丁語、中日韓語、西里爾語和專門的科學文字)受益於 DeepSeek OCR 的培訓分佈,支援全球數字化和資料生成專案。
80M 引數視窗 SAM 加上 300M 引數 CLIP-Large 將區域性字形細節與全域性佈局功能對齊,保持密集的法律、金融和科學 PDF 的保真度。
從 Tiny(64 個 Token)到 Gundam(多視窗平鋪)皆可使用,輕鬆在發票、藍圖與大幅面掃描之間調整速度與精細度。
輸出 HTML 表格、Markdown 圖表、SMILES 化學式與幾何註記,無需手動重建即可直接進入分析流程。
麻省理工學院許可的權重允許組織在本地執行 DeepSeek OCR,從而在使用託管 API 時避免與 DeepSeek 的中國基礎設施相關的監管審查。
光柵化頁面(最大 1280×1280)分為 4096 個補丁,壓縮 16× 為 256-400 個令牌。本地視窗確保字形準確性,而 CLIP-Large 保留頁面語義。
專家混合解碼器啟用每個標記約 5.7 億個引數,重建文字、佈局標籤和標題。FlashAttention 和 CUDA 最佳化可維持 GPU 吞吐量。
CLIP 預訓練讓 DeepSeek OCR 將文字摘要與圖表、圖表和圖形對齊,這對於科學文件和資料視覺化交接至關重要。
從壓縮到解碼的流水線保持上下文完整:
1. 高解析度PDF頁面(640–1280畫素)
SAM補丁提取
2. 16×卷積壓縮至64-400個token
上下文光壓縮
3. DeepSeek OCR MoE 解碼(~570M 活動)
FlashAttention加速
4. 輸出結構化 HTML、Markdown 或標題
佈局保留結果
基準研究表明 DeepSeek OCR 可以在結構化文件上提供最先進的準確性,同時保持較低的代幣預算。
| OCR 系統 | 準確度速覽 | 速度 / 吞吐 | 核心優勢 | 部署方式 | 
|---|---|---|---|---|
| DeepSeek OCR | 約 97% 精確匹配(10 倍壓縮) | 單張 NVIDIA A100 日處理約 20 萬頁 | 擅長複雜版面、表格、公式、圖示與多語言 | 開源(MIT);本地 GPU 或 DeepSeek API | 
| 谷歌雲視覺 | 混合基準約 98% | 彈性雲吞吐 | 企業級支援,多語言 API | 專有按量計費 API | 
| AWS Textract | 表單識別約 97–99% | 託管雲擴充套件 | 發票與表單抽取,輸出 JSON | 專有按量計費 API | 
| Azure OCR | 清晰印刷文字約 99.8% | 深度整合 Azure 生態 | 擅長印刷文件;手寫體差異較大 | 專有按量計費 API | 
| 超正方OSS | 視掃描質量約 90–95% | 本地 CPU/GPU | 開源,對手寫友好 | 開源(Apache 2.0) | 
來源:Fox 壓縮基準、OmniDocBench、AI Multiple 精度評測、DeepSeek 文件。
克隆 DeepSeek OCR GitHub 儲存庫,下載 6.7 GB safetensors 檢查點,並使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上執行,而 Gundam 平鋪則受益於 40 GB A100。
利用 DeepSeek 的 OpenAI 相容 API 端點提交影像並接收結構化文字。定價反映了平臺的代幣計費(快取命中每百萬輸入代幣約為 0.028 美元)。
將 OCR 輸出轉換為 JSON,將 SMILES 字串連結到化學資訊學管道,或用於雙語釋出的自動字幕圖 - 所有這些都使用 DeepSeek OCR 的結構化結果。
將每頁數千個單詞壓縮為緊湊的標記,用於下游搜尋、摘要和知識圖管道。
從視覺資產中提取幾何推理、工程註釋和化學微笑以支援科學分析。
構建涵蓋 100 多種語言的全球語料庫,掃描書籍或調查,為下游語言模型建立訓練資料。
嵌入到發票、合同或表單處理平臺中,以發出佈局感知的 JSON 和 HTML,為自動化做好準備。
瀏覽 DeepSeek OCR 的實際表現——架構示意、基準儀表板與真實轉換。點選任意影像可檢視高解析度。
            
            
            
            20 倍壓縮時準確率降至約 60%;遇到微小文字或密集表格時請選擇 Large 或 Gundam 模式。
細粒度向量圖仍具挑戰;若需 CAD 級精度,請結合向量解析器。
主要針對印刷文字訓練;手寫任務需配合專用 OCR 工具。
即時吞吐依賴現代 GPU。可透過批處理或使用 DeepSeek 託管 API 平滑算力需求。
下載約 6.7 GB 的 safetensors 檢查點即可零許可費用本地部署 DeepSeek OCR,並按照合規要求定製流程。
託管訪問遵循 DeepSeek 的 Token 計費(快取命中時每百萬輸入 Token 約 0.028 美元)。請依據壓縮模式與文件量規劃預算。
硬體規劃:單張 A100(約 20 萬頁/天)可支撐企業佇列,20 臺節點 × 8 張 A100 可達約 3300 萬頁/天的大規模數字化能力。
DeepSeek OCR 將頁面切分為圖塊,進行 16× 卷積降取樣,僅傳遞 64–400 個視覺 Token 至 MoE 解碼器,在保留版面線索的同時將上下文縮小十倍。
NVIDIA A100(40 GB)可提供峰值吞吐(約 20 萬頁/天),具備 ≥8 GB 視訊記憶體的 RTX 30 系列顯示卡可執行 Base 模式以滿足中等負載。
手寫體並非核心場景;與專用手寫 OCR 工具相比效能有限,必要時應聯合使用。
可以。測試表明其對錶格與圖表結構可實現近乎無損的 HTML/Markdown 還原,便於直接進入分析流水線。
依託豐富的真實與合成訓練資料,DeepSeek OCR 支援約 100 種語言,涵蓋拉丁、CJK、斯拉夫字母及科學符號。
根據提示詞,DeepSeek OCR 可輸出純文字、HTML、Markdown、結構化 JSON、SMILES 化學式與上下文字幕。
本地部署在 MIT 許可下可確保資料留在內部;使用 DeepSeek API 時需審視其雲基礎設施帶來的合規要求。
在複雜文件上,它能與雲端競品持平甚至更優,同時使用更少的視覺 Token,非常適合 GPU 受限的場景。
Hugging Face Spaces、社群 Notebook 與 “awesome DeepSeek” 倉庫提供示例,SDK 可整合 Adobe、Figma 及 Python 客戶端。
可以。可將對話存成影像以擴充套件 LLM 上下文視窗,需要時再由 DeepSeek OCR 還原文字。
全球的實踐者與研究者正在分享 DeepSeek OCR 的上下文光學壓縮如何改變他們的文件流程。這裡收錄了來自 X(Twitter)的精選反饋。
這次大藍鯨帶著狂野的東西回來了!
—放鬆人工智慧 (@unwind_ai_) 2025 年 10 月 21 日
DeepSeek 構建了一個 OCR 模型,可以使用視覺令牌將文字壓縮 10 倍。
讓我解釋一下:
他們有一個核心見解 - 包含文字的圖片需要比原始文字本身少得多的標記來表示。
現在,… pic.twitter.com/tIYtq437qX
DeepSeek-OCR 非常棒。透過將長文字上下文轉換為影像標記,即使在大約 10 倍壓縮的情況下,我們也幾乎沒有惡化,並且即使在 20 倍壓縮的情況下也保持了 60% 的準確率。這使得法學碩士的長上下文處理得到了壓倒性的改進。作為常規 OCR,它似乎也非常好用。 pic.twitter.com/Ya6ae3Mbwz
—石川陽太 (@ytikw) 2025 年 10 月 20 日
deepseek-ocr這個名字過於低調,不去深入瞭解的話以為又是一個orc模型而已,然而這個模型實現了十倍的資訊壓縮率,一個影像token可以頂十個文字token,這可是一件大事,在hn上直接炸了。deepseek還提出用影像模糊程度來模擬人類記憶隨時間衰退的現象,讀取同一張圖片時可以呼叫不同解析度的專家模型。 https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— Datou (@Datou) 2025 年 10 月 20 日
與封閉的人工智慧實驗室不同,DeepSeek 證明它們是真正的開放研究
—賓杜·雷迪 (@bindureddy) 2025 年 10 月 21 日
他們的 OCR 論文將段落視為畫素,效率比傳統法學碩士高 60 倍
小型超高效模型是未來 pic.twitter.com/RY7PJoeH3E
深思OCR!開源是一份不斷贈送的禮物!驚人的!我剛剛使用這個優秀的新開源模型將 400 頁 PDF 轉換為 Markdown。花了不到4分鐘! pic.twitter.com/QuxcDhVlPG
—特里斯坦·貝倫斯博士 (@DrTBehrens) 2025 年 10 月 20 日
🚀 DeepSeek-OCR — OCR 的新前沿 @deepseek_ai 探索 LLM 的光學上下文壓縮,在 vLLM ⚡ 上執行速度極快(在 A100-40G 上約為 2500 個令牌/秒) — 由 vllm==0.8.5 提供支援,提供 day-0 模型支援。
—vLLM (@vllm_project) 2025 年 10 月 20 日
🧠 將視覺上下文壓縮高達 20 倍,同時保持...... pic.twitter.com/bx3d7LnfaR
下載官方 PDF,深入瞭解上下文光學壓縮正規化、架構與基準。離線查閱實驗細節、消融分析與部署指南。
藉助上下文光學壓縮對複雜 PDF、圖表與多語檔案進行數字化、分析與重構。