
qwen2.5-vl-72b-instruct
顶级多模态指令微调模型
2025-02-21
输入:
$2.3/1M tokens
输出:
$6.9/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
Qwen2.5-VL-72B-Instruct 是阿里通义推出的顶级多模态模型,核心定位为 “企业级视觉代理与全场景图文视频协同专家”,以 72B 超大参数规模实现顶尖视觉理解、长视频处理与智能设备控制能力,适配高端企业任务与复杂智能交互场景。
- 顶尖视觉理解性能:图像任务表现比肩国际旗舰模型,MathVista 达 74.8 分、DocVQA 96.4 分,OCRBench-V2(61.5/63.7 分)、CC-OCR 79.8 分,精准解析多语言文档、图表等复杂图像。
- 长视频深度处理:支持 1 小时以上长视频理解,精准捕捉事件并定位片段,VideoMME(73.3/79.1 分)、LVBench 47.3 分,适配专业视频分析场景。
- 超强视觉代理能力:作为高端视觉智能体,支持电脑、手机自动化控制,ScreenSpot 达 87.1 分、Android Control 低难度场景准确率 93.7%,可动态调用工具完成复杂交互。
- 多模态协同巅峰:文本与视觉能力深度融合,支持结构化输出(发票、表格数据),适配财务、商务等专业场景,中文交互优化突出。
───────────────────────────────────────────────────────────────────
核心能力
🖼️ 极致图像解析:处理复杂多语言文档、图表、专业图像,提取高精度结构化数据,数学视觉任务表现顶尖,适配企业级文档数字化需求。
🎬 长视频事件精准捕捉:理解长视频时序逻辑,定位关键片段,生成详细描述与问答,适配视频监控分析、专业内容总结场景。
🤖 高端设备控制代理:根据视觉环境与指令,自动化操作电脑、手机完成复杂界面交互,提升企业智能设备运营效率。
📊 专业结构化数据生成:对发票、报表等图像生成规范数据格式,无缝对接企业数据系统,适配财务核算、商务数据分析等专业场景。
🌍 全场景高端适配:兼容本地文件、URL、base64 等多格式输入,兼顾企业级复杂任务与高端个人智能交互,满足多元高端需求。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽