企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

glm-4.1v-thinking-flashx

智谱GLM-4.1V-Thinking-Flash的极速版

2025-04-14

语言大模型

输入:

$0.3/1M tokens

输出:

$0.3/1M tokens

大额采购联系客户经理享专属优惠

API介绍

GLM-4.1V-Thinking-Flash 是智谱 AI 推出的免费视觉推理大模型，核心定位为“强大视觉感知 + 深度思维链推理”的高性能多模态基座，旨在复杂视觉场景下提供精准且具可解释性的分析。

原生深度思考能力： 默认内置思维链（CoT）推理机制，在给出答案前进行深层次的逻辑推导，显著提升了在复杂、模糊场景下的回答精准度。
卓越多模态理解： 核心能力在图表分析、视频理解及 GUI 任务等场景达到行业领先水平（新 SOTA），能够精准捕捉图像与视频中的细微逻辑。
全能视觉解析： 支持图片、视频、文件等多种输入格式，具备时序分析与事件逻辑建模能力，可处理长程视频内容。
视觉锚定与定位： 实现语言指令与图像区域的精准对齐，能够识别并定位图像中的特定实体，提升了人机交互的可控性与辅助操作能力。

───────────────────────────────────────────────────────────────────

核心能力

👁️ 图文深度综合分析： 不仅能识别文字和物体，更能理解图表趋势、财务报表逻辑及复杂的学术配图。

🧠 复杂逻辑分步演绎： 针对数理化难题或科学推导，提供详尽的思考过程（Thinking Process），确保推理路径严谨、透明。

💻 前端 Coding 与 GUI 任务： 具备极强的代码转换能力，能根据 UI 截图直接生成 React 等前端代码，或作为智能体理解界面结构执行自动化任务。

🎬 时序视频理解： 能够分析视频中的动作序列、因果关系及逻辑演变，适用于监控摘要、视频问答等场景。

🔍 实体级视觉对齐： 在“视觉定位”任务中表现优异，可精准指出图像中某个部件或区域的功能，广泛应用于工业检测与智能家居交互。

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（智谱GLM-4多模态）	https://api.302.ai/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格