qwen2.5-vl-72b-instruct

qwen2.5-vl-72b-instruct

顶级多模态指令微调模型
2025-02-21
语言大模型
Model capability: imageModel capability: function_call
输入:
$2.3/1M tokens
输出:
$6.9/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Qwen2.5-VL-72B-Instruct 是阿里通义推出的顶级多模态模型,核心定位为 “企业级视觉代理与全场景图文视频协同专家”,以 72B 超大参数规模实现顶尖视觉理解、长视频处理与智能设备控制能力,适配高端企业任务与复杂智能交互场景。

  • 顶尖视觉理解性能:图像任务表现比肩国际旗舰模型,MathVista 达 74.8 分、DocVQA 96.4 分,OCRBench-V2(61.5/63.7 分)、CC-OCR 79.8 分,精准解析多语言文档、图表等复杂图像。
  • 长视频深度处理:支持 1 小时以上长视频理解,精准捕捉事件并定位片段,VideoMME(73.3/79.1 分)、LVBench 47.3 分,适配专业视频分析场景。
  • 超强视觉代理能力:作为高端视觉智能体,支持电脑、手机自动化控制,ScreenSpot 达 87.1 分、Android Control 低难度场景准确率 93.7%,可动态调用工具完成复杂交互。
  • 多模态协同巅峰:文本与视觉能力深度融合,支持结构化输出(发票、表格数据),适配财务、商务等专业场景,中文交互优化突出。

───────────────────────────────────────────────────────────────────

核心能力

🖼️ 极致图像解析:处理复杂多语言文档、图表、专业图像,提取高精度结构化数据,数学视觉任务表现顶尖,适配企业级文档数字化需求。

🎬 长视频事件精准捕捉:理解长视频时序逻辑,定位关键片段,生成详细描述与问答,适配视频监控分析、专业内容总结场景。

🤖 高端设备控制代理:根据视觉环境与指令,自动化操作电脑、手机完成复杂界面交互,提升企业智能设备运营效率。

📊 专业结构化数据生成:对发票、报表等图像生成规范数据格式,无缝对接企业数据系统,适配财务核算、商务数据分析等专业场景。

🌍 全场景高端适配:兼容本地文件、URL、base64 等多格式输入,兼顾企业级复杂任务与高端个人智能交互,满足多元高端需求。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(Qwen2.5-VL)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qwen2.5-vl-72b-instruct

-
128000

输入$2.3 / 1M tokens
输出$6.9 / 1M tokens

输入$2.3/ 1M tokens
输出$6.9/ 1M tokens
原价