qwen2.5-vl-7b-instruct

qwen2.5-vl-7b-instruct

轻量级多模态指令微调模型
2025-02-21
语言大模型
Model capability: imageModel capability: function_call
输入:
$0.3/1M tokens
输出:
$0.8/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Qwen2.5-VL-7B-Instruct 是阿里巴巴通义实验室在 Qwen2-VL 系列基础上进一步优化推出的轻量级多模态指令微调模型,核心定位为“更强通用视觉理解 + 更优指令遵循能力”的实用型开源视觉语言助手。

  • 增强的视觉语言对齐:基于 Qwen2.5-VL 基座,在图像-文本细粒度对齐上进一步优化,显著提升对密集文本(如试卷、表格、说明书)和复杂布局(如多图混排、图文交错)的理解能力
  • 更自然的指令交互:通过高质量人类偏好数据微调,在问答、摘要、信息提取等任务中输出更符合用户意图、语言更流畅、格式更规范
  • 高效推理与低资源适配:保持 7B 参数规模,支持 4-bit/8-bit 量化,可在单张消费级 GPU(如 RTX 3090/4090)上高效运行,适合本地部署与边缘场景
  • 广泛任务覆盖:在 OCR-heavy 场景(如手写题识别、票据解析)、教育辅助(解题步骤生成)、办公自动化(图表问答)等实际应用中表现稳健
  • 开源可商用:采用兼容性良好的开源许可证(如 Apache 2.0),提供 Hugging Face 模型权重、推理脚本及多语言支持示例

───────────────────────────────────────────────────────────────────

核心能力

👁️ 高鲁棒性图文解析:精准提取图像中的文字、公式、表格结构,即使在模糊、倾斜或低光照条件下仍保持较高准确率

🧠 上下文感知推理:结合多轮对话历史与当前图像内容,实现如“指出图中错误并修正”“根据实验装置图描述操作步骤”等任务

🧮 结构化信息生成:能将视觉内容转化为 JSON、列表、步骤说明等结构化输出,便于下游系统集成

💬 多语言指令支持:除中文外,对英文、日文、韩文等常见语言的图文指令具备良好理解与响应能力

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(Qwen2.5-VL)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qwen2.5-vl-7b-instruct

-
128000

输入$0.3 / 1M tokens
输出$0.8 / 1M tokens

输入$0.3/ 1M tokens
输出$0.8/ 1M tokens
原价