deepseek/deepseek-ocr-2

deepseek/deepseek-ocr-2

DeepSeek AI 推出的多模态文档识别模型,通过语义因果扫描实现高精度文档结构理解
2026-02-04
语言大模型
Model capability: image
输入:
$0.031/1M tokens
输出:
$0.031/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

DeepSeek-OCR 2 是 DeepSeek AI 推出的多模态文档识别级新一代产品,核心定位为“通过语义因果扫描实现高精度文档结构理解”,将视觉编码从固定光栅顺序升级为逻辑驱动的动态重排序。

  • 升级点:引入 DeepEncoder V2,用 Qwen2-0.5B 轻量 LLM 替代 CLIP 编码器,新增因果流查询机制实现视觉 token 动态重排。
  • 适用场景:复杂版面文档解析,如含公式、表格、多栏排版的 PDF 或扫描件,尤其适合需还原阅读逻辑的场景。
  • 产品价值:仅用 256–1120 个视觉 token 即可高保真压缩整页内容,Token 效率媲美 Gemini-3 Pro。
  • 测评数据:OmniDocBench v1.5 综合得分 91.09%,较前代提升 3.73%;阅读顺序编辑距离从 0.085 降至 0.057。
  • 实际效果:在线服务重复率从 6.25% 降至 4.17%,PDF 数据处理重复率由 3.69% 降至 2.88%。

───────────────────────────────────────────────────────────────────

核心能力

🔑 因果视觉编码

通过可学习的因果流查询 token,模拟人类注视跳跃,动态重排视觉信息以匹配语义逻辑。

LLM 式视觉主干

采用 Qwen2-0.5B 作为编码器,继承语言模型高效推理能力,整体参数约 500M。

🧩 混合注意力机制

视觉 token 用双向注意力保持全局感知,查询 token 用因果注意力实现自回归重排序。

📊 两阶段级联推理

先在编码器完成“2D→1D”语义重排序,再由 MoE 解码器(3B 总参,500M 激活)生成内容。

🔄 高效压缩与训练

基于 SAM-base tokenizer 实现 16 倍压缩,三阶段训练策略联合优化编码-解码流程。

───────────────────────────────────────────────────────────────────

原理拆解

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(PPIO派欧云)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

deepseek/deepseek-ocr-2

-
8192

输入$0.031 / 1M tokens
输出$0.031 / 1M tokens

输入$0.031/ 1M tokens
输出$0.031/ 1M tokens
原价