
Dots.OCR
由302.AI团队自主部署的OCR大模型
2025-08-23
价格:
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
dots.ocr 是一款功能强大的多语言文档解析器,它将布局检测与内容识别统一整合到一个视觉-语言模型中,并能有效保持正确的阅读顺序。尽管其基础模型参数仅为17亿,却已达到行业领先(SOTA)的性能水平。
- 卓越性能:在 OmniDocBench 上,dots.ocr 在文本、表格及阅读顺序的解析任务上均实现了SOTA表现,同时其公式识别效果可媲美规模大得多的Doubao-1.5和Gemini 2.5-Pro等模型。
- 多语言支持:dots.ocr 展现出对低资源语言的强大解析能力,在我们内部构建的多语言文档基准测试中,无论是在布局检测还是内容识别方面,均取得了显著优势。
- 统一且简洁的架构:通过采用单一的视觉-语言模型,dots.ocr 提供了比传统依赖复杂多模型流水线的方法更为精简的架构。只需简单调整输入提示,即可轻松切换不同任务,充分证明了VLM模型同样能够实现与DocLayout-YOLO等传统检测模型相媲美的高效检测效果。
- 高效快速的性能:基于紧凑的17亿参数LLM模型,dots.ocr 的推理速度远超许多其他采用更大基础模型但性能优异的同类产品。
API调试台
登录后,探索更多精彩功能! 点击登录
API列表 (2)
API价格表
$¥ 円 ₽