qwen-vl-plus-2025-07-10

qwen-vl-plus-2025-07-10

来自阿里通义千问的图像识别模型
2025-07-10
语言大模型
Model capability: image
输入:
$0.022/1M tokens
输出:
$0.22/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

通义千问VL-Plus(qwen-vl-plus),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

应用场景

  • 图像问答:描述图像中的内容或者对其进行分类打标,如识别人物、地点、花鸟鱼虫等。
  • 数学题目解答:解答图像中的数学问题,适用于中小学、大学以及成人教育阶段。
  • 视频理解:分析视频内容,如对具体事件进行定位并获取时间戳,或生成关键时间段的摘要。
  • 物体定位:定位图像中的物体,返回外边界矩形框的左上角、右下角坐标或者中心点坐标。
  • 文档解析:将图像类的文档(如扫描件/图片PDF)解析为 QwenVL HTML格式,该格式不仅能精准识别文本,还能获取图像、表格等元素的位置信息。
  • 文字识别与信息抽取:识别图像中的文字、公式,或者抽取票据、证件、表单中的信息,支持格式化输出文本;可识别的语言有中文、英语、日语、韩语、阿拉伯语、越南语、法语、德语、意大利语、西班牙语和俄语。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (2)

API描述接口地址请求方法稳定性参数说明
Chat(通义千问)
POST
稳定
查看详情
Chat(通义千问-VL)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qwen-vl-plus-2025-07-10

-
32000

输入$0.022 / 1M tokens
输出$0.22 / 1M tokens

输入$0.022/ 1M tokens
输出$0.22/ 1M tokens
原价