DeepSeek OCR ビジョンエンコーダ
8,000 万パラメータのウィンドウ化 SAM と 3 億パラメータの CLIP-Large が局所的な字形ディテールと全体レイアウトを整合させ、法律・金融・サイエンス系 PDF の細部まで忠実に再現します。
Tiny → Base → Large → Gundam の遷移が、トークン数を抑えつつ視覚的な忠実度を引き上げる DeepSeek OCR の動作を示します。
DeepSeek OCR は 2 段階構成の Transformer ベース文書 AI で、ページ画像をコンパクトなビジョントークンへ圧縮した後、高容量の専門家混合言語モデルでデコードします。第 1 段階では、ウィンドウ化した SAM ビジョントランスフォーマと高密度 CLIP-Large エンコーダ、16 倍の畳み込みコンプレッサを組み合わせます。第 2 段階では DeepSeek-3B-MoE デコーダ(トークンあたり約 5.7 億パラメータが稼働)でテキスト・HTML・図面注釈を最小限のロスで再構築します。
3,000 万ページの実 PDF と合成チャート・数式・図版で訓練されており、レイアウト構造やテーブル、化学式(SMILES)や幾何タスクを保持します。CLIP 由来のマルチモーダル能力により、強い圧縮後でもキャプションやオブジェクトの位置合わせが損なわれません。
1024×1024 のページを 256 トークンまで圧縮し、従来の OCR パイプラインでは扱いづらい長尺ドキュメントも取り込めます。グローバルな意味構造を保ちながら計算リソースを大幅に削減します。
ラテン文字、CJK、キリル文字、科学系記号など 100 以上の言語をカバーし、世界規模のデジタル化やデータ生成プロジェクトを後押しします。
8,000 万パラメータのウィンドウ化 SAM と 3 億パラメータの CLIP-Large が局所的な字形ディテールと全体レイアウトを整合させ、法律・金融・サイエンス系 PDF の細部まで忠実に再現します。
Tiny(64 トークン)から Gundam(マルチビューポート タイリング)まで、請求書や設計図、大判スキャンで速度と精度のバランスを柔軟にチューニングできます。
HTML テーブルや Markdown チャート、SMILES 化学式、幾何アノテーションを出力し、手作業なしで分析パイプラインへ組み込めます。
MIT ライセンスのウェイトによりオンプレミス運用が可能で、ホステッド API を利用する際も DeepSeek の中国インフラにまつわる規制リスクを回避できます。
ラスタライズされたページ (最大 1280×1280) は 4096 のパッチに分割され、16 倍の 256 ~ 400 トークンに圧縮されます。ローカル ウィンドウはグリフの精度を保証し、CLIP-Large はページ セマンティクスを保持します。
専門家混合デコーダは、トークンごとに最大 5 億 7,000 万個のパラメータをアクティブにし、テキスト、レイアウト タグ、およびキャプションを再構築します。FlashAttendant と CUDA の最適化により、GPU のスループットが維持されます。
CLIP 事前トレーニングにより、DeepSeek OCR はテキストの概要を図、チャート、図と整合させることができます。これは科学文書やデータ視覚化の受け渡しに不可欠です。
デコードパイプラインへの圧縮により、コンテキストがそのまま維持されます。
1. 高解像度の PDF ページ (640 ~ 1280 ピクセル)
SAM パッチの抽出
2. 64 ~ 400 トークンへの 16 倍の畳み込み圧縮
コンテキスト光学圧縮
3. DeepSeek OCR MoE デコード (約 570M アクティブ)
フラッシュアテンションのアクセラレーション
4. 構造化HTML、マークダウン、またはキャプションを出力する
レイアウトを保持した結果
ベンチマーク調査では、DeepSeek OCR が低トークン バジェットを維持しながら、構造化ドキュメントに対して最先端の精度を実現していることが示されています。
| OCRシステム | 精度のスナップショット | 速度/スループット | コアの強み | 導入 | 
|---|---|---|---|---|
| DeepSeek OCR | 10 倍圧縮で ~97% 完全一致 | NVIDIA A100 あたり最大 200,000 ページ/日 | 豊富なレイアウトの OCR、表、数式、図、多言語 | オープンソース (MIT)。ローカル GPU または DeepSeek API | 
| Googleクラウドビジョン | 混合ベンチマークで ~98% | 柔軟なクラウド スループット | エンタープライズサポート、多言語API | 独自の従量課金制 API | 
| AWS テキストラクト | フォーム上で ~97 ~ 99% | マネージドクラウドスケーリング | JSON出力による請求書とフォームの抽出 | 独自の従量課金制 API | 
| Azure OCR | きれいに入力されたテキストでは ~99.8% | Azure エコシステムの統合 | 印刷されたページに強い。手書きの違い | 独自の従量課金制 API | 
| テッセラクトOSS | スキャンに応じて ~90 ~ 95% | ローカルCPU/GPU | オープンソース、手書き対応 | オープンソース (Apache 2.0) | 
出典: Fox 圧縮ベンチマーク、OmniDocBench、AI Multiple 精度レビュー、DeepSeek ドキュメント。
DeepSeek OCR GitHub リポジトリのクローンを作成し、6.7 GB のセーフテンソル チェックポイントをダウンロードし、FlashAttendant を使用して PyTorch 2.6+ を構成します。基本モードは 8 ~ 10 GB GPU で実行されますが、ガンダム タイリングは 40 GB A100 の恩恵を受けます。
DeepSeek の OpenAI 互換 API エンドポイントを利用して、画像を送信し、構造化テキストを受信します。価格はプラットフォームのトークン請求を反映しています (キャッシュ ヒットの入力トークン 100 万件あたり ~0.028 ドル)。
OCR 出力の JSON への変換、SMILES 文字列のケモインフォマティクス パイプラインへのリンク、またはバイリンガル出版のための自動キャプション図の作成など、すべて DeepSeek OCR の構造化結果を使用します。
ダウンストリームの検索、要約、ナレッジ グラフ パイプラインのために、ページごとに数千の単語をコンパクトなトークンに圧縮します。
視覚資産から幾何学推論、工学的注釈、化学的 SMILE を抽出して、科学的分析をサポートします。
書籍やアンケートをスキャンして、100 以上の言語にわたるグローバル コーパスを構築し、下流の言語モデルのトレーニング データを作成します。
請求書、契約書、フォーム処理プラットフォームに埋め込んで、自動化に対応したレイアウト対応の JSON と HTML を出力します。
アーキテクチャ図、ベンチマーク ダッシュボード、現実世界の変換など、DeepSeek OCR の実際の動作を垣間見ることができます。任意のフレームをクリックすると、高解像度のビューが開きます。
            
            
            
            20 倍の圧縮では精度が最大 60% に低下します。マイクロテキストまたは高密度のテーブルが存在する場合は、ラージ モードまたはガンダム モードを選択してください。
細かいベクトル チャートは依然として厳しいです。CAD の精度が重要な場合は、ベクトルネイティブのパーサーと組み合わせてください。
主に印刷されたテキストについてトレーニングを受けます。筆記体が多いワークロードには手書き OCR ツールを追加します。
リアルタイムのスループットには最新の GPU が必要です。バッチ処理または DeepSeek のマネージド API により、コンピューティングのニーズをスムーズに処理できます。
約 6.7 GB のセーフテンサー チェックポイントをダウンロードし、ライセンス料なしで DeepSeek OCR をローカルで操作し、コンプライアンス基準に合わせてワークフローをカスタマイズします。
ホスト型アクセスは、DeepSeek のトークン価格設定 (キャッシュ ヒットの入力トークン 100 万件あたり ~0.028 ドル) に従います。圧縮モードとドキュメントの量に応じて予算を計画します。
ハードウェア計画: 1 台の A100 (1 日あたり約 200,000 ページ) でエンタープライズ キューを処理できますが、大規模なデジタル化では 20 ノード × 8 台の A100 で 1 日あたり約 3,300 万ページに達します。
DeepSeek OCR は、ページをパッチにスライスし、16 倍の畳み込みダウンサンプリングを適用し、64 ~ 400 個のビジョン トークンのみを MoE デコーダに転送し、コンテキスト サイズを 10 倍に削減しながらレイアウト キューを保持します。
NVIDIA A100 (40 GB) はピーク スループット (~200k ページ/日) を提供しますが、8 GB 以上の VRAM を搭載した RTX 30 シリーズ カードは中程度の負荷の場合はベース モードを処理できます。
手書きは中心的な焦点ではありません。特殊な筆記体 OCR ツールと比較すると、パフォーマンスは依然として制限されています。必要に応じて、DeepSeek OCR を手書きエンジンと組み合わせます。
はい。テストでは、テーブルとチャート構造の HTML/Markdown がほぼロスレスで再現され、手動でクリーンアップせずに分析パイプラインを実現できることが示されました。
DeepSeek OCR は、その広範な実際のトレーニング データと合成トレーニング データのおかげで、ラテン語、CJK、キリル文字、科学表記法に及ぶ約 100 の言語をカバーします。
DeepSeek OCR は、プロンプトに応じて、プレーン テキスト、HTML、マークダウン、構造化 JSON、SMILES 化学文字列、およびコンテキスト キャプションを出力できます。
ローカル展開では、MIT ライセンスに基づいてデータをオンプレミスに保持します。DeepSeek の API を使用する場合は、会社のクラウド インフラストラクチャの精査のため、コンプライアンス ガイダンスを参照してください。
複雑なドキュメントに関してはクラウドの競合他社と同等かそれを上回り、使用するビジョン トークンの量がはるかに少ないため、GPU に制約のある操作に最適です。
Hugging Face Spaces、コミュニティ ノートブック、および「素晴らしい DeepSeek」リポジトリではデモが紹介されており、SDK は Adobe、Figma、Python クライアントと統合されています。
はい。会話を画像として保存して LLM コンテキスト ウィンドウを拡張し、必要に応じて DeepSeek OCR でテキストを再構築します。
世界中の実務家や研究者が、DeepSeek OCR のコンテキスト光学圧縮がドキュメントのワークフローをどのように変えるかを共有しています。X (Twitter) からキャプチャされた反応の厳選されたフィードを探索してください。
大きなシロナガスクジラが、今度は野生のものを携えて戻ってきました!
—アンワインドAI (@unwind_ai_) 2025 年 10 月 21 日
DeepSeek は、ビジョン トークンを使用してテキストを 10 倍圧縮できる OCR モデルを構築しました。
説明しましょう:
彼らは核となる洞察を持っていました - テキストを含む画像を表現するために必要なトークンは、生のテキストそのものよりもはるかに少ないです。
今、… pic.twitter.com/tIYtq437qX
DeepSeek-OCRバリ凄い。長文コンテキストを画像トークンに変換することで、約10倍の圧縮でほぼ劣化なし、20倍圧縮でも精度6割を維持を達成。これによりLLMのロングコンテキスト処理は圧倒的な改善が可能に。さらに普通のOCRとしてもめちゃめちゃ優秀な模様 pic.twitter.com/Ya6ae3Mbwz
— 石川陽太 Yota Ishikawa (@ytiskw) 2025 年 10 月 20 日
deepseek-ocr という名前は控えめすぎます。これを深く理解していないと、単なる ORC モデルだと思うでしょう。しかし、このモデルでは10倍の情報圧縮率を実現しています。 1 つの画像トークンは 10 個のテキスト トークンに相当します。これは大変なことなのでhnで爆発しました。Deepseek はまた、画像のぼやけの程度を使用して、時間の経過に伴う人間の記憶力の低下をシミュレートすることも提案しました。同じ画像を読み取る場合、異なる解像度のエキスパート モデルを呼び出すことができます。 https://t.co/y2xt9IwiF7 pic.twitter.com/4D8tNe7Oki
—ダトウ (@Dato) 2025 年 10 月 20 日
閉鎖的な AI ラボとは異なり、DeepSeek は真にオープンな研究であることを証明します
—ビンドゥ・レディ (@bindureddy) 2025 年 10 月 21 日
同社の OCR ペーパーは段落をピクセルとして扱い、従来の LLM よりも 60 倍効率的です。
小型で超効率的なモデルは未来です pic.twitter.com/RY7PJoeH3E
ディープシークOCR!オープンソースは与え続ける贈り物です。素晴らしい!この優れた新しいオープンソース モデルを使用して、400 ページの PDF をマークダウンに変換しました。4分もかかりませんでした! pic.twitter.com/QuxcDhVlPG
—トリスタン・ベーレンス博士 (@DrTBehrens) 2025 年 10 月 20 日
🚀 DeepSeek-OCR — OCR の新境地 @deepseek_ai は、LLM の光コンテキスト圧縮を検討しており、vLLM ⚡ (A100-40G で約 2500 トークン/秒) 上で非常に高速に実行されています。Day-0 モデルのサポートには vllm==0.8.5 が搭載されています。
—vLLM (@vllm_project) 2025 年 10 月 20 日
🧠 ビジュアルコンテキストを最大 20 倍に圧縮しながら… pic.twitter.com/bx3d7LnfaR
公式 PDF をダウンロードして、光学圧縮パラダイム、アーキテクチャ、ベンチマークのコンテキストをさらに深く掘り下げてください。オフラインでレビューして、DeepSeek OCR チームから直接提供される詳細な実験、アブレーション、展開ガイダンスを確認してください。
コンテキスト光学圧縮を使用して、複雑な PDF、チャート、多言語アーカイブをデジタル化、分析、再構築します。