GLM-OCR 版面解析

GLM-OCR 版面解析

智谱推出的版面解析模型,用于解析文档和图片的布局并提取文本内容
2026-02-03
信息处理
价格:
$0.03/M Tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

GLM-OCR 是由智谱推出的轻量级专业 OCR 模型产品,核心定位为“小尺寸、高精度的专业文档解析引擎”,旨在通过高效、精准的文本识别技术,实现对复杂文档内容的理解与提取。

  • 性能SOTA:在发布时以 94.62 分登顶 OmniDocBench V1.5,在表格、公式等多项主流文档理解基准中取得最佳表现,性能接近 Gemini-3-Pro。
  • 真实业务场景优化:针对代码文档、复杂表格、印章等复杂场景进行优化,即使在版式复杂、字体多样或图文混排情况下也能保持出色的识别准确度。
  • 高效高性价比:参数规模仅为 0.9B,支持 VLLM 和 SGLang 部署,推理延迟低、算力开销少,成本约为传统 OCR 方案的 1/10。
  • 多语言支持:支持包括中文、英文在内的多种语言,适用于全球用户。
  • 批量处理与RAG支持:支持大批量文档识别与解析,为检索增强生成(RAG)提供坚实基础。

───────────────────────────────────────────────────────────────────

核心能力

🔍 精准结构化输出

  • 返回符合预定义格式的 JSON 数据,确保结构清晰,便于后续处理与集成。

📄 高精度文档解析

  • 能够识别手写体、印章、代码等特殊文字,并能从各类卡证、票据、表格中智能提取关键字段。

📊 复杂表格解析

  • 精准理解合并单元格、多层表头等复杂表格结构,直接输出 HTML 代码,无需二次制表,极大提升表格录入与转换效率。

🚀 快速部署体验

  • 支持 PDF、图片(JPG、PNG)输入,单图 ≤ 10 MB,PDF ≤ 50 MB,最大支持 100 页。
  • 输出模态丰富,包括文本、图片链接及 md 文档,满足多样化需求。

🌐多应用场景

  • 通用文本识别:应用于教育、科研、办公等领域,支持照片、截图、扫描件等多种形式的文档输入。
  • 复杂表格解析:适用于金融、保险等行业,处理包含复杂结构的表格数据。
  • 信息结构化提取:用于银行、政务、物流等行业系统,自动提取并标准化文档中的关键信息。

───────────────────────────────────────────────────────────────────

效果展示

API调试台

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
glm-ocr
POST
稳定
查看详情

API价格表

$
模型说明上下文302.AI价格

glm-ocr

-
32000

$0.03/M Tokens