
qwen/qwen3-4b-fp8
阿里巴巴推出的40亿参数级轻量模型,专为边缘设备(如手机、IoT)优化设计
2025-06-10
输入:
免费
输出:
免费
大额采购联系客户经理享专属优惠
API介绍
Qwen3-4B-FP8 是阿里巴巴推出的40亿参数级轻量模型,核心定位为极致高效的端侧推理引擎,专为边缘设备(如手机、IoT)优化设计,兼顾性能与低功耗需求。
- 轻量标杆:仅4B参数,性能却比肩Qwen2.5-72B(720亿参数模型),在同等规模模型中精度领先。
- FP8黑科技:采用FP8混合精度量化技术,模型体积压缩至约500MB,推理速度提升3倍,功耗降低60%。
- 长文本支持:原生适配128K上下文,轻松处理长文档摘要、代码库分析等任务。
- 多语言覆盖:支持119种语言(含中文方言),满足全球化应用需求。
- 开箱即用:兼容ONNX Runtime、TensorRT等主流推理框架,5分钟即可部署到树莓派或手机端。
───────────────────────────────────────────────────────────────────
核心能力
⚡ 极速推理:FP8量化技术实现“零损耗”压缩,在树莓派5上推理速度达25 tokens/秒,延迟低于50ms。
📱 端侧全能:4B模型在手机端运行仅需1.2GB内存,支持实时语音翻译、离线摘要等场景,彻底摆脱云端依赖。
🌐 语言无界:内置多语言适配层,对粤语、闽南语等方言的识别准确率超92%,打破小语种AI应用壁垒。
🔧 生态零摩擦:提供Android/iOS SDK、Python轻量API,一行代码即可调用,完美适配Flutter、React Native等跨平台框架。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽