sophnet/Qwen2-VL-72B-Instruct

sophnet/Qwen2-VL-72B-Instruct

来自通义千问,扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体
2025-07-08
语言大模型
Model capability: image
输入:
$2.29/1M tokens
输出:
$6.86/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Qwen2-VL-72B-Instruct 是阿里巴巴通义实验室推出的高性能多模态指令微调模型,核心定位为“强大视觉语言理解 + 专业级图文交互”的旗舰级多模态基座。

  • 超大规模稠密架构:72B 全参数激活,在 MMMU、MathVista、DocVQA 等权威多模态评测中达到开源模型领先水平
  • 原生支持多模态输入:可直接处理图像、视频、PDF、网页截图等复杂视觉内容,并与长文本深度融合
  • 长时视频理解:可解析 20 分钟以上长视频,完成视频问答、内容创作、对话交互等任务
  • 指令遵循精细对齐:基于高质量人类偏好数据训练,精准响应格式控制、风格模仿、多步骤操作等复杂指令

───────────────────────────────────────────────────────────────────

核心能力

👁️ 专家级视觉解析:能准确理解学术图表、工程图纸、金融报表、UI 界面等高信息密度内容,并提取结构化数据

🧠 跨模态深度推理:结合视觉与文本上下文,完成如“根据电路图写调试步骤”“从商品对比图生成选购建议”等任务

🌍 多语言自然输出:强化中文语境理解,同时支持英文等主流语言,输出符合本地文化与专业习惯

🧩 智能体就绪集成:原生支持 Function Calling 与 JSON Schema 输出,可无缝嵌入自动化办公、AI 教辅、电商导购等 AI 工作流

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(SophNet)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

sophnet/Qwen2-VL-72B-Instruct

-
32000

输入$2.29 / 1M tokens
输出$6.86 / 1M tokens

输入$2.29/ 1M tokens
输出$6.86/ 1M tokens
原价