企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

deepseek/deepseek-ocr-2

DeepSeek AI 推出的多模态文档识别模型，通过语义因果扫描实现高精度文档结构理解

2026-02-04

语言大模型

输入:

$0.031/1M tokens

输出:

$0.031/1M tokens

大额采购联系客户经理享专属优惠

API介绍

DeepSeek-OCR 2 是 DeepSeek AI 推出的多模态文档识别级新一代产品，核心定位为“通过语义因果扫描实现高精度文档结构理解”，将视觉编码从固定光栅顺序升级为逻辑驱动的动态重排序。

升级点：引入 DeepEncoder V2，用 Qwen2-0.5B 轻量 LLM 替代 CLIP 编码器，新增因果流查询机制实现视觉 token 动态重排。
适用场景：复杂版面文档解析，如含公式、表格、多栏排版的 PDF 或扫描件，尤其适合需还原阅读逻辑的场景。
产品价值：仅用 256–1120 个视觉 token 即可高保真压缩整页内容，Token 效率媲美 Gemini-3 Pro。
测评数据：OmniDocBench v1.5 综合得分 91.09%，较前代提升 3.73%；阅读顺序编辑距离从 0.085 降至 0.057。
实际效果：在线服务重复率从 6.25% 降至 4.17%，PDF 数据处理重复率由 3.69% 降至 2.88%。

───────────────────────────────────────────────────────────────────

核心能力

🔑 因果视觉编码：

通过可学习的因果流查询 token，模拟人类注视跳跃，动态重排视觉信息以匹配语义逻辑。

⚡ LLM 式视觉主干

采用 Qwen2-0.5B 作为编码器，继承语言模型高效推理能力，整体参数约 500M。

🧩 混合注意力机制

视觉 token 用双向注意力保持全局感知，查询 token 用因果注意力实现自回归重排序。

📊 两阶段级联推理

先在编码器完成“2D→1D”语义重排序，再由 MoE 解码器（3B 总参，500M 激活）生成内容。

🔄 高效压缩与训练

基于 SAM-base tokenizer 实现 16 倍压缩，三阶段训练策略联合优化编码-解码流程。

原理拆解

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（PPIO派欧云）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格