
GLM-OCR 版面解析
智谱推出的版面解析模型,用于解析文档和图片的布局并提取文本内容
2026-02-03
价格:
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
GLM-OCR 是由智谱推出的轻量级专业 OCR 模型产品,核心定位为“小尺寸、高精度的专业文档解析引擎”,旨在通过高效、精准的文本识别技术,实现对复杂文档内容的理解与提取。
- 性能SOTA:在发布时以 94.62 分登顶 OmniDocBench V1.5,在表格、公式等多项主流文档理解基准中取得最佳表现,性能接近 Gemini-3-Pro。
- 真实业务场景优化:针对代码文档、复杂表格、印章等复杂场景进行优化,即使在版式复杂、字体多样或图文混排情况下也能保持出色的识别准确度。
- 高效高性价比:参数规模仅为 0.9B,支持 VLLM 和 SGLang 部署,推理延迟低、算力开销少,成本约为传统 OCR 方案的 1/10。
- 多语言支持:支持包括中文、英文在内的多种语言,适用于全球用户。
- 批量处理与RAG支持:支持大批量文档识别与解析,为检索增强生成(RAG)提供坚实基础。
───────────────────────────────────────────────────────────────────
核心能力
🔍 精准结构化输出:
- 返回符合预定义格式的 JSON 数据,确保结构清晰,便于后续处理与集成。
📄 高精度文档解析:
- 能够识别手写体、印章、代码等特殊文字,并能从各类卡证、票据、表格中智能提取关键字段。
📊 复杂表格解析:
- 精准理解合并单元格、多层表头等复杂表格结构,直接输出 HTML 代码,无需二次制表,极大提升表格录入与转换效率。
🚀 快速部署体验:
- 支持 PDF、图片(JPG、PNG)输入,单图 ≤ 10 MB,PDF ≤ 50 MB,最大支持 100 页。
- 输出模态丰富,包括文本、图片链接及 md 文档,满足多样化需求。
🌐多应用场景
- 通用文本识别:应用于教育、科研、办公等领域,支持照片、截图、扫描件等多种形式的文档输入。
- 复杂表格解析:适用于金融、保险等行业,处理包含复杂结构的表格数据。
- 信息结构化提取:用于银行、政务、物流等行业系统,自动提取并标准化文档中的关键信息。
───────────────────────────────────────────────────────────────────
效果展示
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽