glm-4.1v-thinking-flashx

glm-4.1v-thinking-flashx

智谱GLM-4.1V-Thinking-Flash的极速版
2025-04-14
语言大模型
Model capability: imageModel capability: thinking
输入:
$0.3/1M tokens
输出:
$0.3/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

GLM-4.1V-Thinking-Flash 是智谱 AI 推出的免费视觉推理大模型,核心定位为“强大视觉感知 + 深度思维链推理”的高性能多模态基座,旨在复杂视觉场景下提供精准且具可解释性的分析。

  • 原生深度思考能力: 默认内置思维链(CoT)推理机制,在给出答案前进行深层次的逻辑推导,显著提升了在复杂、模糊场景下的回答精准度。
  • 卓越多模态理解: 核心能力在图表分析、视频理解及 GUI 任务等场景达到行业领先水平(新 SOTA),能够精准捕捉图像与视频中的细微逻辑。
  • 全能视觉解析: 支持图片、视频、文件等多种输入格式,具备时序分析与事件逻辑建模能力,可处理长程视频内容。
  • 视觉锚定与定位: 实现语言指令与图像区域的精准对齐,能够识别并定位图像中的特定实体,提升了人机交互的可控性与辅助操作能力。

───────────────────────────────────────────────────────────────────

核心能力

👁️ 图文深度综合分析: 不仅能识别文字和物体,更能理解图表趋势、财务报表逻辑及复杂的学术配图。

🧠 复杂逻辑分步演绎: 针对数理化难题或科学推导,提供详尽的思考过程(Thinking Process),确保推理路径严谨、透明。

💻 前端 Coding 与 GUI 任务: 具备极强的代码转换能力,能根据 UI 截图直接生成 React 等前端代码,或作为智能体理解界面结构执行自动化任务。

🎬 时序视频理解: 能够分析视频中的动作序列、因果关系及逻辑演变,适用于监控摘要、视频问答等场景。

🔍 实体级视觉对齐: 在“视觉定位”任务中表现优异,可精准指出图像中某个部件或区域的功能,广泛应用于工业检测与智能家居交互。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(智谱GLM-4多模态)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

glm-4.1v-thinking-flashx

-
64000

输入$0.3 / 1M tokens
输出$0.3 / 1M tokens

输入$0.3/ 1M tokens
输出$0.3/ 1M tokens
原价