コンテキスト光学圧縮エンジン

DeepSeek OCR

DeepSeek OCR は高解像度ドキュメントをコンパクトなビジョントークンへ圧縮し、30 億パラメータの専門家混合モデルで復元することで、100 以上の言語にわたりテキスト・レイアウト・図版をほぼ劣化なく理解します。

精度

97%

10 倍圧縮時の Fox ベンチマークでの完全一致精度。

スループット

200k

DeepSeek OCR を使用した単一の NVIDIA A100 GPU での 1 日あたりのページ数。

対応言語

100+

さまざまなスクリプトにわたる多言語 DeepSeek OCR をカバーします。

ビジョントークン数 圧縮率 アクティブ MoE パラメータ

Tiny → Base → Large → Gundam の遷移が、トークン数を抑えつつ視覚的な忠実度を引き上げる DeepSeek OCR の動作を示します。

DeepSeek OCR とは?

DeepSeek OCR は 2 段階構成の Transformer ベース文書 AI で、ページ画像をコンパクトなビジョントークンへ圧縮した後、高容量の専門家混合言語モデルでデコードします。第 1 段階では、ウィンドウ化した SAM ビジョントランスフォーマと高密度 CLIP-Large エンコーダ、16 倍の畳み込みコンプレッサを組み合わせます。第 2 段階では DeepSeek-3B-MoE デコーダ(トークンあたり約 5.7 億パラメータが稼働)でテキスト・HTML・図面注釈を最小限のロスで再構築します。

3,000 万ページの実 PDF と合成チャート・数式・図版で訓練されており、レイアウト構造やテーブル、化学式(SMILES)や幾何タスクを保持します。CLIP 由来のマルチモーダル能力により、強い圧縮後でもキャプションやオブジェクトの位置合わせが損なわれません。

DeepSeek OCR コンテキスト光学圧縮

1024×1024 のページを 256 トークンまで圧縮し、従来の OCR パイプラインでは扱いづらい長尺ドキュメントも取り込めます。グローバルな意味構造を保ちながら計算リソースを大幅に削減します。

DeepSeek OCR の多言語対応

ラテン文字、CJK、キリル文字、科学系記号など 100 以上の言語をカバーし、世界規模のデジタル化やデータ生成プロジェクトを後押しします。

DeepSeek OCR の機能スタック

DeepSeek OCR ビジョンエンコーダ

8,000 万パラメータのウィンドウ化 SAM と 3 億パラメータの CLIP-Large が局所的な字形ディテールと全体レイアウトを整合させ、法律・金融・サイエンス系 PDF の細部まで忠実に再現します。

DeepSeek OCR モードセレクター

Tiny(64 トークン)から Gundam(マルチビューポート タイリング)まで、請求書や設計図、大判スキャンで速度と精度のバランスを柔軟にチューニングできます。

DeepSeek OCR 構造化出力

HTML テーブルや Markdown チャート、SMILES 化学式、幾何アノテーションを出力し、手作業なしで分析パイプラインへ組み込めます。

DeepSeek OCR のコンプライアンス考慮

MIT ライセンスのウェイトによりオンプレミス運用が可能で、ホステッド API を利用する際も DeepSeek の中国インフラにまつわる規制リスクを回避できます。

DeepSeek OCR アーキテクチャ徹底解説

ステージ 1 · DeepSeek OCR DeepEncoder (~380M)

ラスタライズされたページ (最大 1280×1280) は 4096 のパッチに分割され、16 倍の 256 ~ 400 トークンに圧縮されます。ローカル ウィンドウはグリフの精度を保証し、CLIP-Large はページ セマンティクスを保持します。

ステージ 2 · DeepSeek OCR MoE デコーダー (3B)

専門家混合デコーダは、トークンごとに最大 5 億 7,000 万個のパラメータをアクティブにし、テキスト、レイアウト タグ、およびキャプションを再構築します。FlashAttendant と CUDA の最適化により、GPU のスループットが維持されます。

DeepSeek OCR マルチモーダル ブリッジ

CLIP 事前トレーニングにより、DeepSeek OCR はテキストの概要を図、チャート、図と整合させることができます。これは科学文書やデータ視覚化の受け渡しに不可欠です。

DeepSeek OCR データパス

デコードパイプラインへの圧縮により、コンテキストがそのまま維持されます。

1. 高解像度の PDF ページ (640 ~ 1280 ピクセル)

SAM パッチの抽出

2. 64 ~ 400 トークンへの 16 倍の畳み込み圧縮

コンテキスト光学圧縮

3. DeepSeek OCR MoE デコード (約 570M アクティブ)

フラッシュアテンションのアクセラレーション

4. 構造化HTML、マークダウン、またはキャプションを出力する

レイアウトを保持した結果

DeepSeek OCR ベンチマークの比較

ベンチマーク調査では、DeepSeek OCR が低トークン バジェットを維持しながら、構造化ドキュメントに対して最先端の精度を実現していることが示されています。

OCRシステム 精度のスナップショット 速度/スループット コアの強み 導入
DeepSeek OCR 10 倍圧縮で ~97% 完全一致 NVIDIA A100 あたり最大 200,000 ページ/日 豊富なレイアウトの OCR、表、数式、図、多言語 オープンソース (MIT)。ローカル GPU または DeepSeek API
Googleクラウドビジョン 混合ベンチマークで ~98% 柔軟なクラウド スループット エンタープライズサポート、多言語API 独自の従量課金制 API
AWS テキストラクト フォーム上で ~97 ~ 99% マネージドクラウドスケーリング JSON出力による請求書とフォームの抽出 独自の従量課金制 API
Azure OCR きれいに入力されたテキストでは ~99.8% Azure エコシステムの統合 印刷されたページに強い。手書きの違い 独自の従量課金制 API
テッセラクトOSS スキャンに応じて ~90 ~ 95% ローカルCPU/GPU オープンソース、手書き対応 オープンソース (Apache 2.0)

出典: Fox 圧縮ベンチマーク、OmniDocBench、AI Multiple 精度レビュー、DeepSeek ドキュメント。

DeepSeek OCR の使用方法

01

GPU を使用して DeepSeek OCR をローカルに展開する

DeepSeek OCR GitHub リポジトリのクローンを作成し、6.7 GB のセーフテンソル チェックポイントをダウンロードし、FlashAttendant を使用して PyTorch 2.6+ を構成します。基本モードは 8 ~ 10 GB GPU で実行されますが、ガンダム タイリングは 40 GB A100 の恩恵を受けます。

02

API経由でDeepSeek OCRを呼び出す

DeepSeek の OpenAI 互換 API エンドポイントを利用して、画像を送信し、構造化テキストを受信します。価格はプラットフォームのトークン請求を反映しています (キャッシュ ヒットの入力トークン 100 万件あたり ~0.028 ドル)。

03

DeepSeek OCR をワークフローに統合

OCR 出力の JSON への変換、SMILES 文字列のケモインフォマティクス パイプラインへのリンク、またはバイリンガル出版のための自動キャプション図の作成など、すべて DeepSeek OCR の構造化結果を使用します。

DeepSeek OCR 運用上のガードレール

  • Base モードまたは Large モードで遅延の影響を受けやすいジョブをスケジュールします。アーカイブ バッチを Tiny モードでキューに入れて、GPU 時間を延長します。
  • DeepSeek OCR と検索拡張生成パイプラインを組み合わせて、レイアウト コンテキストを尊重しながら長いドキュメントを要約します。
  • DeepSeek のホスト型 API を利用する場合は、地域のコンプライアンスを確認してください。ローカル展開により、国境を越えたデータ漏えいが回避されます。
  • 筆記体の正確さが要求される場合は、手書きに重点を置いたエンジン (Tesseract など) と組み合わせてください。

DeepSeek OCR の使用例

スキャンされた書籍とレポートの DeepSeek OCR

ダウンストリームの検索、要約、ナレッジ グラフ パイプラインのために、ページごとに数千の単語をコンパクトなトークンに圧縮します。

DeepSeek OCR による技術図や数式の作成

視覚資産から幾何学推論、工学的注釈、化学的 SMILE を抽出して、科学的分析をサポートします。

DeepSeek OCR 多言語データセットの作成

書籍やアンケートをスキャンして、100 以上の言語にわたるグローバル コーパスを構築し、下流の言語モデルのトレーニング データを作成します。

DeepSeek OCR ドキュメント変換アプリ

請求書、契約書、フォーム処理プラットフォームに埋め込んで、自動化に対応したレイアウト対応の JSON と HTML を出力します。

DeepSeek OCR の制限事項と緩和策

DeepSeek OCR 圧縮のトレードオフ

20 倍の圧縮では精度が最大 60% に低下します。マイクロテキストまたは高密度のテーブルが存在する場合は、ラージ モードまたはガンダム モードを選択してください。

DeepSeek OCR ベクター グラフィックの課題

細かいベクトル チャートは依然として厳しいです。CAD の精度が重要な場合は、ベクトルネイティブのパーサーと組み合わせてください。

DeepSeek OCR 手書きギャップ

主に印刷されたテキストについてトレーニングを受けます。筆記体が多いワークロードには手書き OCR ツールを追加します。

DeepSeek OCR GPU 依存関係

リアルタイムのスループットには最新の GPU が必要です。バッチ処理または DeepSeek のマネージド API により、コンピューティングのニーズをスムーズに処理できます。

DeepSeek OCR のライセンスと価格

DeepSeek OCR MIT オープンソースの自由

約 6.7 GB のセーフテンサー チェックポイントをダウンロードし、ライセンス料なしで DeepSeek OCR をローカルで操作し、コンプライアンス基準に合わせてワークフローをカスタマイズします。

DeepSeek OCR API トークンエコノミクス

ホスト型アクセスは、DeepSeek のトークン価格設定 (キャッシュ ヒットの入力トークン 100 万件あたり ~0.028 ドル) に従います。圧縮モードとドキュメントの量に応じて予算を計画します。

ハードウェア計画: 1 台の A100 (1 日あたり約 200,000 ページ) でエンタープライズ キューを処理できますが、大規模なデジタル化では 20 ノード × 8 台の A100 で 1 日あたり約 3,300 万ページに達します。

DeepSeek OCR よくある質問

DeepSeek OCR は長い文書をどのように圧縮しますか?

DeepSeek OCR は、ページをパッチにスライスし、16 倍の畳み込みダウンサンプリングを適用し、64 ~ 400 個のビジョン トークンのみを MoE デコーダに転送し、コンテキスト サイズを 10 倍に削減しながらレイアウト キューを保持します。

DeepSeek OCR を効果的に強化する GPU はどれですか?

NVIDIA A100 (40 GB) はピーク スループット (~200k ページ/日) を提供しますが、8 GB 以上の VRAM を搭載した RTX 30 シリーズ カードは中程度の負荷の場合はベース モードを処理できます。

DeepSeek OCR は手書きを処理しますか?

手書きは中心的な焦点ではありません。特殊な筆記体 OCR ツールと比較すると、パフォーマンスは依然として制限されています。必要に応じて、DeepSeek OCR を手書きエンジンと組み合わせます。

DeepSeek OCR は表やグラフを保存できますか?

はい。テストでは、テーブルとチャート構造の HTML/Markdown がほぼロスレスで再現され、手動でクリーンアップせずに分析パイプラインを実現できることが示されました。

DeepSeek OCR はどの程度多言語対応ですか?

DeepSeek OCR は、その広範な実際のトレーニング データと合成トレーニング データのおかげで、ラテン語、CJK、キリル文字、科学表記法に及ぶ約 100 の言語をカバーします。

DeepSeek OCR はどのような出力形式を生成できますか?

DeepSeek OCR は、プロンプトに応じて、プレーン テキスト、HTML、マークダウン、構造化 JSON、SMILES 化学文字列、およびコンテキスト キャプションを出力できます。

DeepSeek OCR は規制された業界にとって安全ですか?

ローカル展開では、MIT ライセンスに基づいてデータをオンプレミスに保持します。DeepSeek の API を使用する場合は、会社のクラウド インフラストラクチャの精査のため、コンプライアンス ガイダンスを参照してください。

DeepSeek OCR はクラウド OCR サービスとどのように比較されますか?

複雑なドキュメントに関してはクラウドの競合他社と同等かそれを上回り、使用するビジョン トークンの量がはるかに少ないため、GPU に制約のある操作に最適です。

DeepSeek OCR をサポートするツール エコシステムは何ですか?

Hugging Face Spaces、コミュニティ ノートブック、および「素晴らしい DeepSeek」リポジトリではデモが紹介されており、SDK は Adob​​e、Figma、Python クライアントと統合されています。

DeepSeek OCR はコンテキストのアーカイブを支援できますか?

はい。会話を画像として保存して LLM コンテキスト ウィンドウを拡張し、必要に応じて DeepSeek OCR でテキストを再構築します。

DeepSeek OCR ユーザーの声 from X

世界中の実務家や研究者が、DeepSeek OCR のコンテキスト光学圧縮がドキュメントのワークフローをどのように変えるかを共有しています。X (Twitter) からキャプチャされた反応の厳選されたフィードを探索してください。

DeepSeek OCR 研究論文

公式 PDF をダウンロードして、光学圧縮パラダイム、アーキテクチャ、ベンチマークのコンテキストをさらに深く掘り下げてください。オフラインでレビューして、DeepSeek OCR チームから直接提供される詳細な実験、アブレーション、展開ガイダンスを確認してください。

DeepSeek OCR でドキュメント インテリジェンスを加速する

コンテキスト光学圧縮を使用して、複雑な PDF、チャート、多言語アーカイブをデジタル化、分析、再構築します。