
sophnet/GLM-4.5V
基于 MOE 架构的多模态视觉推理模型
2025-08-12
输入:
$0.286/1M tokens
输出:
$0.8572/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
GLM-4.5V 是智谱 AI 推出的旗舰级多模态视觉推理模型,核心定位为“全场景视觉理解+深度推理”的开源多模态新标杆。
- 超大规模 MoE 架构:总参数 106B,激活参数仅 12B,在 41 个公开多模态榜单中达到同级别开源 SOTA
- 全模态输入支持:原生处理图像、视频、PDF/Word 等文档及 GUI 屏幕画面,实现统一视觉推理
- 真实场景能力突出:可精准定位物体坐标、复刻网页前端代码、推断街景拍摄地经纬度,甚至参与人类竞赛排名全球前 66
- 思考模式灵活切换:支持“快速响应”与“深度推理”双模式,平衡效率与输出质量
───────────────────────────────────────────────────────────────────
核心能力
👁️ 精准视觉定位(Grounding):根据自然语言描述(如“从右数第二瓶啤酒”)输出精确坐标框,适用于质检、遥感等实业场景
🖥️ GUI 智能体操作:看懂电商页面、办公软件界面,自动识别价格、图标并执行点击、编辑等操作指令
📄 复杂文档深度解读:像人类一样“看图读文”,同步理解图表、表格与文字,避免 OCR 信息丢失
🎬 长视频语义推理:分析多帧视频动态变化,还原交互逻辑,甚至从录屏复刻可运行的 HTML 页面
🧠 世界知识融合推理:结合植被、建筑、气候等视觉线索,无需搜索即可推断图片拍摄地点与背景信息
───────────────────────────────────────────────────────────────────
相关评测
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽