glm-4v

glm-4v

智谱AI推出的开源多模态模型,基于MOE架构
2024-06-05
语言大模型
Model capability: image
输入:
$7/1M tokens
输出:
$7/1M tokens
大额采购联系客户经理享专属优惠

API介绍

GLM-4V 是 智谱AI 推出的多模态模型级旗舰产品,核心定位为基于MOE架构的视觉理解引擎,以1120×1120高分辨率输入和深度思考模式,实现图像/视频/文档的精准解析与跨模态任务处理。

  • 多模态融合:支持图像、视频、文件三类输入,输出精准文本分析结果,覆盖前端复刻、安防质检等企业级场景。
  • 高分辨率处理:独家支持1120×1120分辨率输入,通过降采样技术减少token开销,提升解析精度。
  • 性能比肩GPT-4V:在多项测评中超越同级别开源模型,综合性能达SOTA水平,尤其擅长复杂视觉推理任务。
  • 结构化输出:原生支持JSON格式,直接对接业务系统,减少二次开发。
  • 企业级定制:支持LoRA微调,模型可用性从60%提升至89%。
  • 开源生态:开源版下载量超1300万次,居国产模型首位,支持开发者本地部署轻量级应用。

───────────────────────────────────────────────────────────────────

核心能力

🧠 MOE架构驱动:106B总参数量+12B激活参数,实现同级别开源模型最高性能,视觉推理效率提升40%。

🔍 全模态解析:独家支持视频、图像、文件三模态输入,一次调用完成多源信息融合分析。

⚡ 深度思考模式:动态启用复杂推理链,解决学科解题、逻辑推演等高阶任务,准确率超92%。

🌐 高分辨率处理:1120×1120输入分辨率+智能降采样,细节捕捉能力提升50%,减少信息丢失。

🛠️ 自动化执行:GUI Agent精准识别界面元素,自动完成PPT编辑、数据录入等办公操作。

📊 结构化输出:原生JSON支持+坐标定位(如Grounding),直接生成可交互代码或结构化数据。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(智谱GLM-4V)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

glm-4v

-
32000

输入$7 / 1M tokens
输出$7 / 1M tokens

输入$7/ 1M tokens
输出$7/ 1M tokens
原价