qvq-max-latest

qvq-max-latest

通义千问QVQ视觉推理模型,支持视觉输入及思维链输出
2025-05-15
语言大模型
Model capability: imageModel capability: video
输入:
$1.15/1M tokens
输出:
$4.58/1M tokens
大额采购联系客户经理享专属优惠

API介绍

QVQ-Max 是阿里通义推出的全新一代视觉推理大模型,核心定位为“多模态全能眼”,专为深度图像/视频理解、跨模态推理与创意生成而打造。

  • 四大核心能力
  • 图像解析:0.3 秒内精准识别图表、论文配图、商品图中的关键元素,连坐标轴误差棒等细节也不遗漏
  • 视频分析:理解动态场景,可基于当前画面推测后续情节或用户意图
  • 深度推理:结合视觉内容与背景知识进行逻辑推导(如从财报截图提取数据并分析趋势)
  • 创意生成:根据商品图自动生成带货短视频脚本,包含分镜、运镜、文案全链路
  • 技术领先性:作为 QVQ-72B-Preview 的正式升级版,在 MathVision 等视觉推理基准上持续刷新准确率
  • 场景广泛适用:覆盖学习(解数学题)、工作(数据分析、报告解读)、生活(穿搭建议、内容创作)等多元需求

───────────────────────────────────────────────────────────────────

核心价值

👁️ 突破“视网膜局限”:将人类从繁琐的视觉信息筛选中解放,让 AI 一次“凝视”即完成理解+推理+输出

🧠 图文视频无缝通感:无论是科研图表、电商界面还是短视频素材,均能统一建模、跨模态关联

🚀 创意加速引擎:从“看到图”到“生成剧本”全自动完成,大幅缩短内容生产周期

📌 项目主页https://qwenlm.github.io/blog/qvq-max-preview/

QVQ-Max 不仅是“看图说话”,更是用视觉驱动决策与创造的新一代 AI 视觉智能体基座

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (3)

API描述接口地址请求方法稳定性参数说明
Chat(通义千问)
POST
稳定
查看详情
Chat(通义千问-VL)
POST
稳定
查看详情
Chat(通义千问-OCR)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qvq-max-latest

-
128000

输入$1.15 / 1M tokens
输出$4.58 / 1M tokens

输入$1.15/ 1M tokens
输出$4.58/ 1M tokens
原价