
deepseek/deepseek-ocr-2
DeepSeek AI 推出的多模态文档识别模型,通过语义因果扫描实现高精度文档结构理解
2026-02-04
输入:
$0.031/1M tokens
输出:
$0.031/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
DeepSeek-OCR 2 是 DeepSeek AI 推出的多模态文档识别级新一代产品,核心定位为“通过语义因果扫描实现高精度文档结构理解”,将视觉编码从固定光栅顺序升级为逻辑驱动的动态重排序。
- 升级点:引入 DeepEncoder V2,用 Qwen2-0.5B 轻量 LLM 替代 CLIP 编码器,新增因果流查询机制实现视觉 token 动态重排。
- 适用场景:复杂版面文档解析,如含公式、表格、多栏排版的 PDF 或扫描件,尤其适合需还原阅读逻辑的场景。
- 产品价值:仅用 256–1120 个视觉 token 即可高保真压缩整页内容,Token 效率媲美 Gemini-3 Pro。
- 测评数据:OmniDocBench v1.5 综合得分 91.09%,较前代提升 3.73%;阅读顺序编辑距离从 0.085 降至 0.057。
- 实际效果:在线服务重复率从 6.25% 降至 4.17%,PDF 数据处理重复率由 3.69% 降至 2.88%。
───────────────────────────────────────────────────────────────────
核心能力
🔑 因果视觉编码:
通过可学习的因果流查询 token,模拟人类注视跳跃,动态重排视觉信息以匹配语义逻辑。
⚡ LLM 式视觉主干
采用 Qwen2-0.5B 作为编码器,继承语言模型高效推理能力,整体参数约 500M。
🧩 混合注意力机制
视觉 token 用双向注意力保持全局感知,查询 token 用因果注意力实现自回归重排序。
📊 两阶段级联推理
先在编码器完成“2D→1D”语义重排序,再由 MoE 解码器(3B 总参,500M 激活)生成内容。
🔄 高效压缩与训练
基于 SAM-base tokenizer 实现 16 倍压缩,三阶段训练策略联合优化编码-解码流程。
───────────────────────────────────────────────────────────────────
原理拆解
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽