DeepSeek OCR 视觉编码器
8000 万参数的窗口化 SAM 搭配 3 亿参数的 CLIP-Large,将局部字形细节与全局布局特征对齐,在密集的法律、金融与科研 PDF 中保持高保真度。
Tiny → Base → Large → Gundam 的演进展示了 DeepSeek OCR 如何在保持低 Token 数的同时提升视觉保真度。
DeepSeek OCR 是一款两阶段 Transformer 文档 AI,先将页面图像压缩成紧凑的视觉 Token,再以高容量的专家混合语言模型解码。阶段一融合窗口化 SAM 视觉 Transformer、致密 CLIP-Large 编码器与 16× 卷积压缩器;阶段二使用 DeepSeek-3B-MoE 解码器(每个 Token 激活约 5.7 亿参数),以最小损耗重建文本、HTML 与图示标注。
模型训练覆盖 3000 万页真实 PDF 及合成图表、公式与示意图,可保留版式结构、表格、化学式(SMILES)与几何任务。得益于 CLIP 血统,多模态能力完整保留——即使在激进压缩后,字幕与目标定位仍旧准确。
1024×1024 的页面被压缩至仅 256 个 Token,让传统 OCR 难以承载的长文档也能轻松摄取,在大幅降低算力消耗的同时保留全局语义。
覆盖 100+ 种语言——包括拉丁、汉字、日韩、斯拉夫文字及专业科学符号——以训练分布支撑全球数字化与数据生成项目。
8000 万参数的窗口化 SAM 搭配 3 亿参数的 CLIP-Large,将局部字形细节与全局布局特征对齐,在密集的法律、金融与科研 PDF 中保持高保真度。
从 Tiny(64 个 Token)到 Gundam(多视窗平铺),DeepSeek OCR 可在发票、工程蓝图与大幅面扫描中精确平衡速度与保真度。
输出 HTML 表格、Markdown 图表、SMILES 化学式与几何标注,可直接进入分析流水线,无需人工重建。
MIT 许可的模型权重支持组织在本地运行 DeepSeek OCR,使用托管 API 时亦可规避与 DeepSeek 中国基础设施相关的监管审查。
将最高 1280×1280 的页面划分为 4096 个图块,16 倍压缩至 256–400 个 Token。局部窗口保证字形精度,CLIP-Large 则保留页面语义。
专家混合解码器每个 Token 激活约 5.7 亿参数,重建文本、版式标签与字幕。FlashAttention 与 CUDA 优化维持高 GPU 吞吐。
CLIP 预训练让 DeepSeek OCR 能将文本摘要与图表、曲线与插图对齐,对科研文档与数据可视化的衔接尤为关键。
从压缩到解码的流水线保持上下文完整:
1. 高分辨率 PDF 页面(640–1280 像素)
SAM 图块提取
2. 16× 卷积压缩至 64–400 个 Token
上下文光学压缩
3. DeepSeek OCR MoE 解码(约 5.7 亿激活)
FlashAttention 加速
4. 输出结构化 HTML、Markdown 或字幕
保留版面的结果
基准研究表明 DeepSeek OCR 可以在结构化文档上提供最先进的准确性,同时保持较低的代币预算。
| OCR 系统 | 准确度速览 | 速度 / 吞吐 | 核心优势 | 部署方式 | 
|---|---|---|---|---|
| DeepSeek OCR | 约 97% 精确匹配(10 倍压缩) | 单张 NVIDIA A100 日处理约 20 万页 | 擅长复杂版面、表格、公式、图示与多语言 | 开源(MIT);本地 GPU 或 DeepSeek API | 
| 谷歌云视觉 | 混合基准约 98% | 弹性云吞吐 | 企业级支持,多语言 API | 专有按量计费 API | 
| AWS Textract | 表单识别约 97–99% | 托管云扩展 | 发票与表单抽取,输出 JSON | 专有按量计费 API | 
| Azure OCR | 清晰印刷文本约 99.8% | 深度整合 Azure 生态 | 擅长印刷文档;手写体差异较大 | 专有按量计费 API | 
| 超正方OSS | 视扫描质量约 90–95% | 本地 CPU/GPU | 开源,对手写友好 | 开源(Apache 2.0) | 
来源:Fox 压缩基准、OmniDocBench、AI Multiple 精度评测、DeepSeek 文档。
克隆 DeepSeek OCR GitHub 存储库,下载 6.7 GB safetensors 检查点,并使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上运行,而 Gundam 平铺则受益于 40 GB A100。
利用 DeepSeek 的 OpenAI 兼容 API 端点提交图像并接收结构化文本。定价反映了平台的代币计费(缓存命中每百万输入代币约为 0.028 美元)。
将 OCR 输出转换为 JSON,将 SMILES 字符串链接到化学信息学管道,或用于双语发布的自动字幕图 - 所有这些都使用 DeepSeek OCR 的结构化结果。
将每页数千个单词压缩为紧凑的标记,用于下游搜索、摘要和知识图管道。
从视觉资产中提取几何推理、工程注释和化学微笑以支持科学分析。
构建涵盖 100 多种语言的全球语料库,扫描书籍或调查,为下游语言模型创建训练数据。
嵌入到发票、合同或表单处理平台中,以发出布局感知的 JSON 和 HTML,为自动化做好准备。
浏览 DeepSeek OCR 的实际表现——架构示意、基准仪表板与真实转换。点击任意图像可查看高分辨率。
            
            
            
            20 倍压缩时准确率降至约 60%;遇到微小文字或密集表格时请选择 Large 或 Gundam 模式。
细粒度矢量图仍具挑战;若需 CAD 级精度,请结合矢量解析器。
主要针对印刷文本训练;手写任务需配合专用 OCR 工具。
实时吞吐依赖现代 GPU。可通过批处理或使用 DeepSeek 托管 API 平滑算力需求。
下载约 6.7 GB 的 safetensors 检查点即可零许可费用本地部署 DeepSeek OCR,并按照合规要求定制流程。
托管访问遵循 DeepSeek 的 Token 计费(缓存命中时每百万输入 Token 约 0.028 美元)。请依据压缩模式与文档量规划预算。
硬件规划:单张 A100(约 20 万页/天)可支撑企业队列,20 台节点 × 8 张 A100 可达约 3300 万页/天的大规模数字化能力。
DeepSeek OCR 将页面切分为图块,进行 16× 卷积降采样,仅传递 64–400 个视觉 Token 至 MoE 解码器,在保留版面线索的同时将上下文缩小十倍。
NVIDIA A100(40 GB)可提供峰值吞吐(约 20 万页/天),具备 ≥8 GB 显存的 RTX 30 系列显卡可运行 Base 模式以满足中等负载。
手写体并非核心场景;与专用手写 OCR 工具相比性能有限,必要时应联合使用。
可以。测试表明其对表格与图表结构可实现近乎无损的 HTML/Markdown 还原,便于直接进入分析流水线。
依托丰富的真实与合成训练数据,DeepSeek OCR 支持约 100 种语言,涵盖拉丁、CJK、斯拉夫字母及科学符号。
根据提示词,DeepSeek OCR 可输出纯文本、HTML、Markdown、结构化 JSON、SMILES 化学式与上下文字幕。
本地部署在 MIT 许可下可确保数据留在内部;使用 DeepSeek API 时需审视其云基础设施带来的合规要求。
在复杂文档上,它能与云端竞品持平甚至更优,同时使用更少的视觉 Token,非常适合 GPU 受限的场景。
Hugging Face Spaces、社区 Notebook 与 “awesome DeepSeek” 仓库提供示例,SDK 可集成 Adobe、Figma 及 Python 客户端。
可以。可将对话存成图像以扩展 LLM 上下文窗口,需要时再由 DeepSeek OCR 还原文本。
全球的实践者与研究者正在分享 DeepSeek OCR 的上下文光学压缩如何改变他们的文档流程。这里收录了来自 X(Twitter)的精选反馈。
这次大蓝鲸带着狂野的东西回来了!
—放松人工智能 (@unwind_ai_) 2025 年 10 月 21 日
DeepSeek 构建了一个 OCR 模型,可以使用视觉令牌将文本压缩 10 倍。
让我解释一下:
他们有一个核心见解 - 包含文本的图片需要比原始文本本身少得多的标记来表示。
现在,… pic.twitter.com/tIYtq437qX
DeepSeek-OCR 非常棒。通过将长文本上下文转换为图像标记,即使在大约 10 倍压缩的情况下,我们也几乎没有恶化,并且即使在 20 倍压缩的情况下也保持了 60% 的准确率。这使得法学硕士的长上下文处理得到了压倒性的改进。作为常规 OCR,它似乎也非常好用。 pic.twitter.com/Ya6ae3Mbwz
—石川阳太 (@ytikw) 2025 年 10 月 20 日
deepseek-ocr这个名字过于低调,不去深入了解的话以为又是一个orc模型而已,然而这个模型实现了十倍的信息压缩率,一个图像token可以顶十个文本token,这可是一件大事,在hn上直接炸了。deepseek还提出用图像模糊程度来模拟人类记忆随时间衰退的现象,读取同一张图片时可以调用不同分辨率的专家模型。 https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
— Datou (@Datou) 2025 年 10 月 20 日
与封闭的人工智能实验室不同,DeepSeek 证明它们是真正的开放研究
—宾杜·雷迪 (@bindureddy) 2025 年 10 月 21 日
他们的 OCR 论文将段落视为像素,效率比传统法学硕士高 60 倍
小型超高效模型是未来 pic.twitter.com/RY7PJoeH3E
深思OCR!开源是一份不断赠送的礼物!惊人的!我刚刚使用这个优秀的新开源模型将 400 页 PDF 转换为 Markdown。花了不到4分钟! pic.twitter.com/QuxcDhVlPG
—特里斯坦·贝伦斯博士 (@DrTBehrens) 2025 年 10 月 20 日
🚀 DeepSeek-OCR — OCR 的新前沿 @deepseek_ai 探索 LLM 的光学上下文压缩,在 vLLM ⚡ 上运行速度极快(在 A100-40G 上约为 2500 个令牌/秒) — 由 vllm==0.8.5 提供支持,提供 day-0 模型支持。
—vLLM (@vllm_project) 2025 年 10 月 20 日
🧠 将视觉上下文压缩高达 20 倍,同时保持...... pic.twitter.com/bx3d7LnfaR
下载官方 PDF,深入了解上下文光学压缩范式、架构与基准。离线查阅实验细节、消融分析与部署指南。
借助上下文光学压缩对复杂 PDF、图表与多语档案进行数字化、分析与重构。