企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

sophnet/Qwen2.5-VL-32B-Instruct

高性能多模态指令微调模型

2025-07-08

语言大模型

输入:

$1.14/1M tokens

输出:

$3.43/1M tokens

大额采购联系客户经理享专属优惠

稳定性

稳定

API介绍

Qwen2.5-VL-32B-Instruct 是阿里通义推出的旗舰级多模态模型，核心定位为 “全场景视觉代理与图文视频协同专家”，以 32B 大参数规模实现顶尖视觉理解、长视频处理与设备控制能力，适配企业级复杂任务与高端智能交互场景。

顶尖视觉理解性能：图像任务表现优异，MathVista 达 74.7 分、MathVision 40.0 分，OCRBenchV2（57.2/59.1 分）、CC-OCR（77.1 分）适配多语言文档解析，DocVQA 94.8 分满足专业文档处理需求。
长视频深度处理：支持 1 小时以上长视频理解，可精准定位事件片段，VideoMME（70.5/77.9 分）、MMBench-Video（1.93 分），适配视频内容分析与关键信息提取。
强视觉代理能力：作为视觉智能体支持电脑、手机控制，Android Control 低难度场景准确率 93.3%、ScreenSpot 达 88.5 分，可动态调用工具实现设备自动化操作。
多模态协同增强：文本能力突出（MMLU 78.4 分、Human Eval 91.5 分），支持图文视频跨模态交互，生成结构化输出（如发票、表格数据），适配财务、商务场景。

───────────────────────────────────────────────────────────────────

核心能力

🖼️ 高精度图像解析：处理复杂图像（图表、多语言文档），提取结构化数据，数学视觉任务表现顶尖，适配专业文档数字化与分析场景。

🎬 长视频事件捕捉：理解长视频时序信息，定位关键片段，生成精准描述与问答，适配视频监控、内容总结等场景。

🤖 设备控制代理：根据视觉环境与指令，自动化操作电脑、手机，完成界面交互、功能调用，提升智能设备使用效率。

📊 结构化数据生成：对发票、表格等图像生成规范数据格式，兼容企业数据系统，适配财务核算、商务数据分析需求。

🌍 全场景适配：优化中文交互，支持本地文件、URL、base64 等多格式输入，兼顾企业级任务与高端个人智能交互需求。

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（SophNet）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格