
qvq-max-latest
通义千问QVQ视觉推理模型,支持视觉输入及思维链输出
2025-05-15
输入:
$1.15/1M tokens
输出:
$4.58/1M tokens
大额采购联系客户经理享专属优惠
API介绍
QVQ-Max 是阿里通义推出的全新一代视觉推理大模型,核心定位为“多模态全能眼”,专为深度图像/视频理解、跨模态推理与创意生成而打造。
- 四大核心能力:
- ✅ 图像解析:0.3 秒内精准识别图表、论文配图、商品图中的关键元素,连坐标轴误差棒等细节也不遗漏
- ✅ 视频分析:理解动态场景,可基于当前画面推测后续情节或用户意图
- ✅ 深度推理:结合视觉内容与背景知识进行逻辑推导(如从财报截图提取数据并分析趋势)
- ✅ 创意生成:根据商品图自动生成带货短视频脚本,包含分镜、运镜、文案全链路
- 技术领先性:作为 QVQ-72B-Preview 的正式升级版,在 MathVision 等视觉推理基准上持续刷新准确率
- 场景广泛适用:覆盖学习(解数学题)、工作(数据分析、报告解读)、生活(穿搭建议、内容创作)等多元需求
───────────────────────────────────────────────────────────────────
核心价值
👁️ 突破“视网膜局限”:将人类从繁琐的视觉信息筛选中解放,让 AI 一次“凝视”即完成理解+推理+输出
🧠 图文视频无缝通感:无论是科研图表、电商界面还是短视频素材,均能统一建模、跨模态关联
🚀 创意加速引擎:从“看到图”到“生成剧本”全自动完成,大幅缩短内容生产周期
📌 项目主页:https://qwenlm.github.io/blog/qvq-max-preview/
QVQ-Max 不仅是“看图说话”,更是用视觉驱动决策与创造的新一代 AI 视觉智能体基座。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (3)
API价格表
$¥ 円 ₽