
sophnet/Qwen2-VL-72B-Instruct
来自通义千问,扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体
2025-07-08
输入:
$2.29/1M tokens
输出:
$6.86/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
Qwen2-VL-72B-Instruct 是阿里巴巴通义实验室推出的高性能多模态指令微调模型,核心定位为“强大视觉语言理解 + 专业级图文交互”的旗舰级多模态基座。
- 超大规模稠密架构:72B 全参数激活,在 MMMU、MathVista、DocVQA 等权威多模态评测中达到开源模型领先水平
- 原生支持多模态输入:可直接处理图像、视频、PDF、网页截图等复杂视觉内容,并与长文本深度融合
- 长时视频理解:可解析 20 分钟以上长视频,完成视频问答、内容创作、对话交互等任务
- 指令遵循精细对齐:基于高质量人类偏好数据训练,精准响应格式控制、风格模仿、多步骤操作等复杂指令
───────────────────────────────────────────────────────────────────
核心能力
👁️ 专家级视觉解析:能准确理解学术图表、工程图纸、金融报表、UI 界面等高信息密度内容,并提取结构化数据
🧠 跨模态深度推理:结合视觉与文本上下文,完成如“根据电路图写调试步骤”“从商品对比图生成选购建议”等任务
🌍 多语言自然输出:强化中文语境理解,同时支持英文等主流语言,输出符合本地文化与专业习惯
🧩 智能体就绪集成:原生支持 Function Calling 与 JSON Schema 输出,可无缝嵌入自动化办公、AI 教辅、电商导购等 AI 工作流
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽