sophnet/Qwen2.5-VL-32B-Instruct

sophnet/Qwen2.5-VL-32B-Instruct

高性能多模态指令微调模型
2025-07-08
语言大模型
Model capability: image
输入:
$1.14/1M tokens
输出:
$3.43/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Qwen2.5-VL-32B-Instruct 是阿里通义推出的旗舰级多模态模型,核心定位为 “全场景视觉代理与图文视频协同专家”,以 32B 大参数规模实现顶尖视觉理解、长视频处理与设备控制能力,适配企业级复杂任务与高端智能交互场景。

  • 顶尖视觉理解性能:图像任务表现优异,MathVista 达 74.7 分、MathVision 40.0 分,OCRBenchV2(57.2/59.1 分)、CC-OCR(77.1 分)适配多语言文档解析,DocVQA 94.8 分满足专业文档处理需求。
  • 长视频深度处理:支持 1 小时以上长视频理解,可精准定位事件片段,VideoMME(70.5/77.9 分)、MMBench-Video(1.93 分),适配视频内容分析与关键信息提取。
  • 强视觉代理能力:作为视觉智能体支持电脑、手机控制,Android Control 低难度场景准确率 93.3%、ScreenSpot 达 88.5 分,可动态调用工具实现设备自动化操作。
  • 多模态协同增强:文本能力突出(MMLU 78.4 分、Human Eval 91.5 分),支持图文视频跨模态交互,生成结构化输出(如发票、表格数据),适配财务、商务场景。

───────────────────────────────────────────────────────────────────

核心能力

🖼️ 高精度图像解析:处理复杂图像(图表、多语言文档),提取结构化数据,数学视觉任务表现顶尖,适配专业文档数字化与分析场景。

🎬 长视频事件捕捉:理解长视频时序信息,定位关键片段,生成精准描述与问答,适配视频监控、内容总结等场景。

🤖 设备控制代理:根据视觉环境与指令,自动化操作电脑、手机,完成界面交互、功能调用,提升智能设备使用效率。

📊 结构化数据生成:对发票、表格等图像生成规范数据格式,兼容企业数据系统,适配财务核算、商务数据分析需求。

🌍 全场景适配:优化中文交互,支持本地文件、URL、base64 等多格式输入,兼顾企业级任务与高端个人智能交互需求。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(SophNet)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

sophnet/Qwen2.5-VL-32B-Instruct

-
128000

输入$1.14 / 1M tokens
输出$3.43 / 1M tokens

输入$1.14/ 1M tokens
输出$3.43/ 1M tokens
原价