上下文光学压缩引擎

DeepSeek OCR

DeepSeek OCR 将高分辨率文档压缩成精简的视觉 Token,再借助 30 亿参数的专家混合模型解码,实现覆盖 100+ 种语言的近乎无损文字、版式与图示理解。

精度

97%

在 Fox 基准上实现 10 倍压缩的精确匹配率。

吞吐量

20万

使用单张 NVIDIA A100 GPU 时的每日处理页数。

语言覆盖

100+

多语种 DeepSeek OCR 覆盖多种文字体系。

视觉 Token 数 压缩比 激活的 MoE 参数

Tiny → Base → Large → Gundam 的演进展示了 DeepSeek OCR 如何在保持低 Token 数的同时提升视觉保真度。

什么是 DeepSeek OCR?

DeepSeek OCR 是一款两阶段 Transformer 文档 AI,先将页面图像压缩成紧凑的视觉 Token,再以高容量的专家混合语言模型解码。阶段一融合窗口化 SAM 视觉 Transformer、致密 CLIP-Large 编码器与 16× 卷积压缩器;阶段二使用 DeepSeek-3B-MoE 解码器(每个 Token 激活约 5.7 亿参数),以最小损耗重建文本、HTML 与图示标注。

模型训练覆盖 3000 万页真实 PDF 及合成图表、公式与示意图,可保留版式结构、表格、化学式(SMILES)与几何任务。得益于 CLIP 血统,多模态能力完整保留——即使在激进压缩后,字幕与目标定位仍旧准确。

DeepSeek OCR 上下文光学压缩

1024×1024 的页面被压缩至仅 256 个 Token,让传统 OCR 难以承载的长文档也能轻松摄取,在大幅降低算力消耗的同时保留全局语义。

DeepSeek OCR 多语言覆盖

覆盖 100+ 种语言——包括拉丁、汉字、日韩、斯拉夫文字及专业科学符号——以训练分布支撑全球数字化与数据生成项目。

DeepSeek OCR 特性矩阵

DeepSeek OCR 视觉编码器

8000 万参数的窗口化 SAM 搭配 3 亿参数的 CLIP-Large,将局部字形细节与全局布局特征对齐,在密集的法律、金融与科研 PDF 中保持高保真度。

DeepSeek OCR 模式选择器

从 Tiny(64 个 Token)到 Gundam(多视窗平铺),DeepSeek OCR 可在发票、工程蓝图与大幅面扫描中精确平衡速度与保真度。

DeepSeek OCR 结构化输出

输出 HTML 表格、Markdown 图表、SMILES 化学式与几何标注,可直接进入分析流水线,无需人工重建。

DeepSeek OCR 合规考量

MIT 许可的模型权重支持组织在本地运行 DeepSeek OCR,使用托管 API 时亦可规避与 DeepSeek 中国基础设施相关的监管审查。

DeepSeek OCR 架构深潜

阶段 1 · DeepSeek OCR DeepEncoder(约 3.8 亿)

将最高 1280×1280 的页面划分为 4096 个图块,16 倍压缩至 256–400 个 Token。局部窗口保证字形精度,CLIP-Large 则保留页面语义。

阶段 2 · DeepSeek OCR MoE 解码器(30 亿)

专家混合解码器每个 Token 激活约 5.7 亿参数,重建文本、版式标签与字幕。FlashAttention 与 CUDA 优化维持高 GPU 吞吐。

DeepSeek OCR 多模态桥梁

CLIP 预训练让 DeepSeek OCR 能将文本摘要与图表、曲线与插图对齐,对科研文档与数据可视化的衔接尤为关键。

DeepSeek OCR 数据流程

从压缩到解码的流水线保持上下文完整:

1. 高分辨率 PDF 页面(640–1280 像素)

SAM 图块提取

2. 16× 卷积压缩至 64–400 个 Token

上下文光学压缩

3. DeepSeek OCR MoE 解码(约 5.7 亿激活)

FlashAttention 加速

4. 输出结构化 HTML、Markdown 或字幕

保留版面的结果

DeepSeek OCR 基准比较

基准研究表明 DeepSeek OCR 可以在结构化文档上提供最先进的准确性,同时保持较低的代币预算。

OCR 系统 准确度速览 速度 / 吞吐 核心优势 部署方式
DeepSeek OCR 约 97% 精确匹配(10 倍压缩) 单张 NVIDIA A100 日处理约 20 万页 擅长复杂版面、表格、公式、图示与多语言 开源(MIT);本地 GPU 或 DeepSeek API
谷歌云视觉 混合基准约 98% 弹性云吞吐 企业级支持,多语言 API 专有按量计费 API
AWS Textract 表单识别约 97–99% 托管云扩展 发票与表单抽取,输出 JSON 专有按量计费 API
Azure OCR 清晰印刷文本约 99.8% 深度整合 Azure 生态 擅长印刷文档;手写体差异较大 专有按量计费 API
超正方OSS 视扫描质量约 90–95% 本地 CPU/GPU 开源,对手写友好 开源(Apache 2.0)

来源:Fox 压缩基准、OmniDocBench、AI Multiple 精度评测、DeepSeek 文档。

如何使用 DeepSeek OCR

01

在本地 GPU 上部署 DeepSeek OCR

克隆 DeepSeek OCR GitHub 存储库,下载 6.7 GB safetensors 检查点,并使用 FlashAttention 配置 PyTorch 2.6+。基本模式在 8-10 GB GPU 上运行,而 Gundam 平铺则受益于 40 GB A100。

02

通过 API 调用 DeepSeek OCR

利用 DeepSeek 的 OpenAI 兼容 API 端点提交图像并接收结构化文本。定价反映了平台的代币计费(缓存命中每百万输入代币约为 0.028 美元)。

03

将 DeepSeek OCR 融入工作流程

将 OCR 输出转换为 JSON,将 SMILES 字符串链接到化学信息学管道,或用于双语发布的自动字幕图 - 所有这些都使用 DeepSeek OCR 的结构化结果。

DeepSeek OCR 运行建议

  • 延迟敏感任务请选择 Base 或 Large 模式;归档批次可排入 Tiny 模式以延长 GPU 使用时间。
  • 将 DeepSeek OCR 与检索增强生成流水线结合,在保留版面上下文的同时总结长文档。
  • 使用 DeepSeek 托管 API 时关注地区合规;本地部署可避免跨境数据暴露。
  • 若需要手写准确率,可结合 Tesseract 等手写专用引擎。

DeepSeek OCR 典型场景

用于扫描图书与报告的 DeepSeek OCR

将每页数千个单词压缩为紧凑的标记,用于下游搜索、摘要和知识图管道。

用于技术图示与公式的 DeepSeek OCR

从视觉资产中提取几何推理、工程注释和化学微笑以支持科学分析。

DeepSeek OCR 多语言数据集构建

构建涵盖 100 多种语言的全球语料库,扫描书籍或调查,为下游语言模型创建训练数据。

DeepSeek OCR 文档转换应用

嵌入到发票、合同或表单处理平台中,以发出布局感知的 JSON 和 HTML,为自动化做好准备。

DeepSeek OCR 限制与对策

DeepSeek OCR 压缩取舍

20 倍压缩时准确率降至约 60%;遇到微小文字或密集表格时请选择 Large 或 Gundam 模式。

DeepSeek OCR 矢量图挑战

细粒度矢量图仍具挑战;若需 CAD 级精度,请结合矢量解析器。

DeepSeek OCR 手写短板

主要针对印刷文本训练;手写任务需配合专用 OCR 工具。

DeepSeek OCR 对 GPU 的依赖

实时吞吐依赖现代 GPU。可通过批处理或使用 DeepSeek 托管 API 平滑算力需求。

DeepSeek OCR 授权与定价

DeepSeek OCR MIT 开源自由

下载约 6.7 GB 的 safetensors 检查点即可零许可费用本地部署 DeepSeek OCR,并按照合规要求定制流程。

DeepSeek OCR API 成本模型

托管访问遵循 DeepSeek 的 Token 计费(缓存命中时每百万输入 Token 约 0.028 美元)。请依据压缩模式与文档量规划预算。

硬件规划:单张 A100(约 20 万页/天)可支撑企业队列,20 台节点 × 8 张 A100 可达约 3300 万页/天的大规模数字化能力。

DeepSeek OCR 常见问题解答

DeepSeek OCR 如何压缩长文档?

DeepSeek OCR 将页面切分为图块,进行 16× 卷积降采样,仅传递 64–400 个视觉 Token 至 MoE 解码器,在保留版面线索的同时将上下文缩小十倍。

哪些 GPU 能高效驱动 DeepSeek OCR?

NVIDIA A100(40 GB)可提供峰值吞吐(约 20 万页/天),具备 ≥8 GB 显存的 RTX 30 系列显卡可运行 Base 模式以满足中等负载。

DeepSeek OCR 能处理手写体吗?

手写体并非核心场景;与专用手写 OCR 工具相比性能有限,必要时应联合使用。

DeepSeek OCR 能保留表格和图表吗?

可以。测试表明其对表格与图表结构可实现近乎无损的 HTML/Markdown 还原,便于直接进入分析流水线。

DeepSeek OCR 的多语言能力如何?

依托丰富的真实与合成训练数据,DeepSeek OCR 支持约 100 种语言,涵盖拉丁、CJK、斯拉夫字母及科学符号。

DeepSeek OCR 可以输出哪些格式?

根据提示词,DeepSeek OCR 可输出纯文本、HTML、Markdown、结构化 JSON、SMILES 化学式与上下文字幕。

DeepSeek OCR 适用于受监管行业吗?

本地部署在 MIT 许可下可确保数据留在内部;使用 DeepSeek API 时需审视其云基础设施带来的合规要求。

DeepSeek OCR 与云端 OCR 服务相比如何?

在复杂文档上,它能与云端竞品持平甚至更优,同时使用更少的视觉 Token,非常适合 GPU 受限的场景。

有哪些工具生态支持 DeepSeek OCR?

Hugging Face Spaces、社区 Notebook 与 “awesome DeepSeek” 仓库提供示例,SDK 可集成 Adobe、Figma 及 Python 客户端。

DeepSeek OCR 能辅助上下文归档吗?

可以。可将对话存成图像以扩展 LLM 上下文窗口,需要时再由 DeepSeek OCR 还原文本。

DeepSeek OCR 来自 X 的声音

全球的实践者与研究者正在分享 DeepSeek OCR 的上下文光学压缩如何改变他们的文档流程。这里收录了来自 X(Twitter)的精选反馈。

DeepSeek OCR 研究论文

下载官方 PDF,深入了解上下文光学压缩范式、架构与基准。离线查阅实验细节、消融分析与部署指南。

下载 DeepSeek OCR 论文 PDF · 6 MB · MIT

用 DeepSeek OCR 加速文档智能

借助上下文光学压缩对复杂 PDF、图表与多语档案进行数字化、分析与重构。