sophnet/GLM-4.5V

sophnet/GLM-4.5V

基于 MOE 架构的多模态视觉推理模型
2025-08-12
语言大模型
Model capability: image
输入:
$0.286/1M tokens
输出:
$0.8572/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

GLM-4.5V 是智谱 AI 推出的旗舰级多模态视觉推理模型,核心定位为“全场景视觉理解+深度推理”的开源多模态新标杆。

  • 超大规模 MoE 架构:总参数 106B,激活参数仅 12B,在 41 个公开多模态榜单中达到同级别开源 SOTA
  • 全模态输入支持:原生处理图像、视频、PDF/Word 等文档及 GUI 屏幕画面,实现统一视觉推理
  • 真实场景能力突出:可精准定位物体坐标、复刻网页前端代码、推断街景拍摄地经纬度,甚至参与人类竞赛排名全球前 66
  • 思考模式灵活切换:支持“快速响应”与“深度推理”双模式,平衡效率与输出质量

───────────────────────────────────────────────────────────────────

核心能力

👁️ 精准视觉定位(Grounding):根据自然语言描述(如“从右数第二瓶啤酒”)输出精确坐标框,适用于质检、遥感等实业场景

🖥️ GUI 智能体操作:看懂电商页面、办公软件界面,自动识别价格、图标并执行点击、编辑等操作指令

📄 复杂文档深度解读:像人类一样“看图读文”,同步理解图表、表格与文字,避免 OCR 信息丢失

🎬 长视频语义推理:分析多帧视频动态变化,还原交互逻辑,甚至从录屏复刻可运行的 HTML 页面

🧠 世界知识融合推理:结合植被、建筑、气候等视觉线索,无需搜索即可推断图片拍摄地点与背景信息

───────────────────────────────────────────────────────────────────

相关评测

《从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测》

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(SophNet)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

sophnet/GLM-4.5V

-
66000

输入$0.286 / 1M tokens
输出$0.8572 / 1M tokens

输入$0.286/ 1M tokens
输出$0.8572/ 1M tokens
原价