qwen-vl-plus-2025-07-10

来自阿里通义千问的图像识别模型

2025-07-10

语言大模型

输入:

$0.022/1M tokens

输出:

$0.22/1M tokens

大额采购联系客户经理享专属优惠

API介绍

通义千问VL-Plus（qwen-vl-plus），即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

应用场景

图像问答：描述图像中的内容或者对其进行分类打标，如识别人物、地点、花鸟鱼虫等。
数学题目解答：解答图像中的数学问题，适用于中小学、大学以及成人教育阶段。
视频理解：分析视频内容，如对具体事件进行定位并获取时间戳，或生成关键时间段的摘要。
物体定位：定位图像中的物体，返回外边界矩形框的左上角、右下角坐标或者中心点坐标。
文档解析：将图像类的文档（如扫描件/图片PDF）解析为 QwenVL HTML格式，该格式不仅能精准识别文本，还能获取图像、表格等元素的位置信息。
文字识别与信息抽取：识别图像中的文字、公式，或者抽取票据、证件、表单中的信息，支持格式化输出文本；可识别的语言有中文、英语、日语、韩语、阿拉伯语、越南语、法语、德语、意大利语、西班牙语和俄语。

登录后，探索更多精彩功能！点击登录

API描述	接口地址	请求方法	稳定性	参数说明
Chat（通义千问）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据
Chat（通义千问-VL）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格

32000