
qwen/qwen3-vl-8b-instruct
阿里巴巴推出的 80亿参数级开源视觉语言模型
2025-10-21
输入:
$0.072/1M tokens
输出:
$0.286/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
Qwen3-VL-8B-Instruct 是阿里巴巴推出的 80亿参数级开源视觉语言模型,核心定位为高性能与轻量化兼具的多模态推理引擎,完美平衡视觉精准度与文本稳健性。
- 性能越级挑战:在STEM、视觉问答等评测中表现超越Gemini 2.5 Flash Lite与GPT-5 Nano,甚至媲美前代720亿参数的Qwen2.5-VL-72B。
- 显存占用更低:相比大模型,对硬件要求大幅降低,单张RTX 4090即可流畅推理,支持FP8等量化版本适配不同设备。
- 全场景部署:支持图像、文本混合输入及本地终端部署,覆盖桌面端、移动端及智能体环境。
- 视频理解升级:原生支持256K上下文(可扩展至1M),能处理数小时视频,实现秒级时间戳索引。
───────────────────────────────────────────────────────────────────
核心能力
🚀 极致长文本与视频处理
原生256K上下文窗口,结合Interleaved-MRoPE位置编码,轻松处理整本图书或数小时视频内容,实现精准时序定位。
👁️ 超强视觉与空间感知
通过DeepStack技术强化细节捕捉,支持2D/3D空间定位,精准判断物体位置与遮挡关系,赋能机器人导航与AR场景。
📝 专业级OCR与文档理解
支持32种语言OCR识别,对低光照、模糊、倾斜文本识别率达92%,并能解析复杂图表与版面结构。
🛡️ 安全可控的交互体验
内置多模态内容过滤系统,对有害内容防御成功率超94%,同时保持高正常指令响应率,确保应用安全。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽