企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

sophnet/Qwen2-VL-72B-Instruct

来自通义千问，扩展上下文至32k，增强图像理解能力，能更好地识别图片中的多语种和手写体

2025-07-08

语言大模型

输入:

$2.29/1M tokens

输出:

$6.86/1M tokens

大额采购联系客户经理享专属优惠

稳定性

稳定

API介绍

Qwen2-VL-72B-Instruct 是阿里巴巴通义实验室推出的高性能多模态指令微调模型，核心定位为“强大视觉语言理解 + 专业级图文交互”的旗舰级多模态基座。

超大规模稠密架构：72B 全参数激活，在 MMMU、MathVista、DocVQA 等权威多模态评测中达到开源模型领先水平
原生支持多模态输入：可直接处理图像、视频、PDF、网页截图等复杂视觉内容，并与长文本深度融合
长时视频理解：可解析 20 分钟以上长视频，完成视频问答、内容创作、对话交互等任务
指令遵循精细对齐：基于高质量人类偏好数据训练，精准响应格式控制、风格模仿、多步骤操作等复杂指令

───────────────────────────────────────────────────────────────────

核心能力

👁️ 专家级视觉解析：能准确理解学术图表、工程图纸、金融报表、UI 界面等高信息密度内容，并提取结构化数据

🧠 跨模态深度推理：结合视觉与文本上下文，完成如“根据电路图写调试步骤”“从商品对比图生成选购建议”等任务

🌍 多语言自然输出：强化中文语境理解，同时支持英文等主流语言，输出符合本地文化与专业习惯

🧩 智能体就绪集成：原生支持 Function Calling 与 JSON Schema 输出，可无缝嵌入自动化办公、AI 教辅、电商导购等 AI 工作流

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（SophNet）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格