
glm-5v-turbo
GLM-5V-Turbo 是智谱首个多模态 Coding 基座模型,面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入,同时擅长长程规划、复杂编程和动作执行;深度适配 Agent 工作流,能够与 Claude Code、OpenClaw 等 Agent 深度协同,完成”看懂环境→规划动作→执行任务”的完整闭环。
2026-04-02
输入:
$0.72/1M tokens起
输出:
$3.2/1M tokens起
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
GLM-5V-Turbo 是智谱 AI(Zhipu AI)推出的旗舰级多模态模型 GLM-5V 的极速优化版。它融合了 GLM-5 系列强大的逻辑推理基因与前沿的视觉感知技术,旨在为开发者提供超低延迟、高精度的多模态交互体验。无论是复杂的图表分析、实时屏幕理解、还是视频内容的语义归纳,GLM-5V-Turbo 都能以惊人的速度完成视觉信息的深度加工,是构建下一代“视觉驱动型”智能体(Vision-Agent)的核心引擎。
───────────────────────────────────────────────────────────────────
核心能力
极致视觉感知速度: 针对视觉处理链路深度优化,大幅缩短了图像输入到语义输出的响应时间,非常适合需要实时视觉反馈的业务场景。
多模态深度逻辑推理: 不止于识别图像内容,更具备强大的空间感知与逻辑关联能力,能够精准解读复杂图表、技术文档或多屏信息,并将其转化为结构化的任务指令。
高性能视觉 Agent 支撑: 完美适配 OpenClaw 等智能体编排框架,能够通过视觉观察操作界面、自主完成点击、拖拽等任务,是实现“视觉交互自动化”的关键利器。
精准的高保真描述: 在细粒度视觉识别、复杂场景描述以及长文本与图像关联任务上,表现出极高的准确度与鲁棒性,减少因误读而产生的 Agent 执行偏差。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽