企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

sophnet/Qwen2.5-VL-72B-Instruct

顶级多模态指令微调模型

2025-07-08

语言大模型

输入:

$2.29/1M tokens

输出:

$6.86/1M tokens

大额采购联系客户经理享专属优惠

API介绍

Qwen2.5-VL-72B-Instruct 是阿里通义推出的顶级多模态模型，核心定位为 “企业级视觉代理与全场景图文视频协同专家”，以 72B 超大参数规模实现顶尖视觉理解、长视频处理与智能设备控制能力，适配高端企业任务与复杂智能交互场景。

顶尖视觉理解性能：图像任务表现比肩国际旗舰模型，MathVista 达 74.8 分、DocVQA 96.4 分，OCRBench-V2（61.5/63.7 分）、CC-OCR 79.8 分，精准解析多语言文档、图表等复杂图像。
长视频深度处理：支持 1 小时以上长视频理解，精准捕捉事件并定位片段，VideoMME（73.3/79.1 分）、LVBench 47.3 分，适配专业视频分析场景。
超强视觉代理能力：作为高端视觉智能体，支持电脑、手机自动化控制，ScreenSpot 达 87.1 分、Android Control 低难度场景准确率 93.7%，可动态调用工具完成复杂交互。
多模态协同巅峰：文本与视觉能力深度融合，支持结构化输出（发票、表格数据），适配财务、商务等专业场景，中文交互优化突出。

───────────────────────────────────────────────────────────────────

核心能力

🖼️ 极致图像解析：处理复杂多语言文档、图表、专业图像，提取高精度结构化数据，数学视觉任务表现顶尖，适配企业级文档数字化需求。

🎬 长视频事件精准捕捉：理解长视频时序逻辑，定位关键片段，生成详细描述与问答，适配视频监控分析、专业内容总结场景。

🤖 高端设备控制代理：根据视觉环境与指令，自动化操作电脑、手机完成复杂界面交互，提升企业智能设备运营效率。

📊 专业结构化数据生成：对发票、报表等图像生成规范数据格式，无缝对接企业数据系统，适配财务核算、商务数据分析等专业场景。

🌍 全场景高端适配：兼容本地文件、URL、base64 等多格式输入，兼顾企业级复杂任务与高端个人智能交互，满足多元高端需求。

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（SophNet）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格