glm-5v-turbo

glm-5v-turbo

GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型,面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入,同时擅长长程规划、复杂编程和动作执行;深度适配 Agent 工作流,能够与 Claude Code、OpenClaw 等 Agent 深度协同,完成”看懂环境→规划动作→执行任务”的完整闭环。
2026-04-02
语言大模型
Model capability: audioModel capability: imageModel capability: videoModel capability: thinkingModel capability: function_call
输入:
$0.72/1M tokens
输出:
$3.2/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

GLM-5V-Turbo 是智谱 AI(Zhipu AI)推出的旗舰级多模态模型 GLM-5V 的极速优化版。它融合了 GLM-5 系列强大的逻辑推理基因与前沿的视觉感知技术,旨在为开发者提供超低延迟、高精度的多模态交互体验。无论是复杂的图表分析、实时屏幕理解、还是视频内容的语义归纳,GLM-5V-Turbo 都能以惊人的速度完成视觉信息的深度加工,是构建下一代“视觉驱动型”智能体(Vision-Agent)的核心引擎。

───────────────────────────────────────────────────────────────────

核心能力


极致视觉感知速度 针对视觉处理链路深度优化,大幅缩短了图像输入到语义输出的响应时间,非常适合需要实时视觉反馈的业务场景。

多模态深度逻辑推理 不止于识别图像内容,更具备强大的空间感知与逻辑关联能力,能够精准解读复杂图表、技术文档或多屏信息,并将其转化为结构化的任务指令。

高性能视觉 Agent 支撑 完美适配 OpenClaw 等智能体编排框架,能够通过视觉观察操作界面、自主完成点击、拖拽等任务,是实现“视觉交互自动化”的关键利器。

精准的高保真描述 在细粒度视觉识别、复杂场景描述以及长文本与图像关联任务上,表现出极高的准确度与鲁棒性,减少因误读而产生的 Agent 执行偏差。


Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(智谱GLM)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

glm-5v-turbo

输入长度[0, 32k]
200000

输入$0.72 / 1M tokens
输出$3.2 / 1M tokens

输入$0.72/ 1M tokens
输出$3.2/ 1M tokens
原价

glm-5v-turbo

输入长度[32k, 200k]
200000

输入$1.1 / 1M tokens
输出$3.8 / 1M tokens

输入$1.1/ 1M tokens
输出$3.8/ 1M tokens
原价